谷歌升级企业云AI，推出音乐生成模型Lyria

周三，谷歌对其Vertex AI云平台上的多款自研媒体生成人工智能模型进行了升级。音乐生成模型Lyria现已面向部分客户开放预览，视频创作模型Veo 2新增了视频编辑与视觉效果定制功能。基于音频理解模型Chirp 3开发的语音克隆功能也已面向“许可名单”用户开放。图像生成器Imagen 3则实现了被官方称为“显著”的性能提升。

Cover Image

此次赶在Cloud Next大会前发布的更新，是谷歌抢占企业级生成式AI市场的最新举措。其最直接的竞争对手是亚马逊，后者推出的Bedrock云AI平台同样配备多款自研生成式AI模型。

谷歌将Lyria定位为免版税音乐库的替代方案。官方表示，该模型可生成涵盖爵士钢琴独奏、低保真电子乐等多种风格的音乐作品。Chirp 3语音模型支持约35种语言的语音合成，其驱动的“即时定制语音”功能仅需10秒音频即可克隆人声，现已全面开放。该模型还支持全新推出的“带说话人分离的转录”工具，可识别录音中不同发言者的内容。

为防止滥用，“即时定制语音”需通过严格的权限验证流程。Veo 2视频模型新增背景替换、画幅调整（如横屏转竖屏）功能，并能通过调整摄像机角度与节奏生成延时摄影、无人机视角等特效镜头，还支持首尾帧插值生成过渡画面，目前这些功能处于预览阶段。

Imagen 3的图像修复能力获得重点提升。谷歌强调，除Chirp外，Imagen、Veo和Lyria生成的所有内容均采用SynthID技术添加数字水印，所有生成式AI模型均配备防止有害内容生成的“内置防护机制”。

谷歌始终未公开模型训练数据的具体来源，这一做法延续至今。由于可能涉及知识产权争议，训练数据一直是敏感话题——部分企业在未获授权的情况下使用受版权保护的内容训练模型，虽然援引美国合理使用原则作为依据，但仍引发大量创作者诉讼。

此前谷歌曾向TechCrunch表示，其提供模型训练退出机制及版权赔偿政策，为谷歌云和Vertex AI客户提供法律保障。