周三,谷歌对其Vertex AI云平台上的多款自研媒体生成人工智能模型进行了升级。音乐生成模型Lyria现已面向部分客户开放预览,视频创作模型Veo 2新增了视频编辑与视觉效果定制功能。基于音频理解模型Chirp 3开发的语音克隆功能也已面向“许可名单”用户开放。图像生成器Imagen 3则实现了被官方称为“显著”的性能提升。

Cover Image

此次赶在Cloud Next大会前发布的更新,是谷歌抢占企业级生成式AI市场的最新举措。其最直接的竞争对手是亚马逊,后者推出的Bedrock云AI平台同样配备多款自研生成式AI模型。

谷歌将Lyria定位为免版税音乐库的替代方案。官方表示,该模型可生成涵盖爵士钢琴独奏、低保真电子乐等多种风格的音乐作品。Chirp 3语音模型支持约35种语言的语音合成,其驱动的“即时定制语音”功能仅需10秒音频即可克隆人声,现已全面开放。该模型还支持全新推出的“带说话人分离的转录”工具,可识别录音中不同发言者的内容。

为防止滥用,“即时定制语音”需通过严格的权限验证流程。Veo 2视频模型新增背景替换、画幅调整(如横屏转竖屏)功能,并能通过调整摄像机角度与节奏生成延时摄影、无人机视角等特效镜头,还支持首尾帧插值生成过渡画面,目前这些功能处于预览阶段。

Imagen 3的图像修复能力获得重点提升。谷歌强调,除Chirp外,Imagen、Veo和Lyria生成的所有内容均采用SynthID技术添加数字水印,所有生成式AI模型均配备防止有害内容生成的“内置防护机制”。

谷歌始终未公开模型训练数据的具体来源,这一做法延续至今。由于可能涉及知识产权争议,训练数据一直是敏感话题——部分企业在未获授权的情况下使用受版权保护的内容训练模型,虽然援引美国合理使用原则作为依据,但仍引发大量创作者诉讼。

此前谷歌曾向TechCrunch表示,其提供模型训练退出机制及版权赔偿政策,为谷歌云和Vertex AI客户提供法律保障。


文章标签: #谷歌 #AI模型 #音乐生成 #视频编辑 #语音克隆

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。