谷歌DeepMind(深度思维)首席执行官德米斯·哈萨比斯近日在播客节目《Possible》中透露,这家搜索巨头计划最终将其Gemini(双子座)AI模型与Veo(维欧)视频生成模型相结合,以提升前者对物理世界的理解能力。该播客由领英(LinkedIn)联合创始人里德·霍夫曼共同主持。
哈萨比斯表示:“我们从最初构建基础模型Gemini时,就将其设计为多模态架构。这样做的愿景是打造一个真正能在现实世界中帮助用户的通用数字助手。”
人工智能行业正逐步向“全能”模型迈进——这类模型能够理解并合成多种媒体形式。谷歌最新的Gemini模型已具备生成音频、图像和文本的能力;OpenAI的ChatGPT默认模型现在也能生成图像(包括吉卜力工作室风格的画作)。亚马逊也宣布计划在今年晚些时候推出“全模态转换”模型。
开发这类全能模型需要海量训练数据——图像、视频、音频、文本等。哈萨比斯暗示,Veo模型的视频数据主要来自谷歌旗下的YouTube平台。
“本质上,通过观看大量YouTube视频,Veo 2能够理解这个世界的物理规律。”哈萨比斯解释道。
此前谷歌曾向科技媒体TechCrunch表示,根据与YouTube创作者的协议,其模型“可能”会使用“部分”YouTube内容进行训练。据报道,该公司去年修订服务条款的部分原因,正是为了获取更多AI模型训练数据。