两名没有深厚人工智能背景的本科生宣称,他们开发了一个可公开获取的AI模型,能生成类似谷歌NotebookLM风格的播客片段。这个由韩国团队Nari Labs发布的新模型背后,联合创始人Toby Kim表示,他与搭档三个月前才开始学习语音AI技术。受NotebookLM启发,他们希望打造一个能让使用者更自由掌控生成音色和脚本的模型。

Cover Image

合成语音工具市场正迅猛扩张。行业巨头ElevenLabs面临诸多挑战者(如PlayAI、Sesame等)。据PitchBook数据,去年语音AI初创公司共获得超3.98亿美元(2.5亿元人民币)风险投资。Kim团队通过谷歌TPU研究云计划免费使用AI芯片,训练出拥有16亿参数的模型Dia。该模型能根据剧本生成对话,允许用户定制说话者语调,并加入停顿、咳嗽、笑声等非语言特征。

参数数量决定模型预测能力,通常参数越多性能越强。Dia可通过Hugging Face和GitHub平台获取,支持大多数配备10GB以上显存的现代电脑。除非指定风格描述,否则会随机生成音色,但也能克隆特定人声。科技媒体TechCrunch实测显示,Dia能流畅生成各类主题的双向对话,音质不逊于同类产品,其声纹克隆功能更是目前最简易的解决方案之一。

不过与多数语音生成工具类似,Dia缺乏防护机制,极易被用于制作虚假信息或诈骗录音。Nari虽在项目页面声明反对冒用身份、欺诈等非法行为,但明确表示对滥用概不负责。该团队尚未公开训练数据来源,Hacker News有用户指出某样本音色疑似美国公共广播电台《金钱星球》(Planet Money)主持人。使用受版权保护内容训练模型虽普遍存在但存在法律争议——AI公司多主张合理使用原则免责,而版权方则认为该原则不适用于机器学习。

Kim透露Nari计划以Dia为基础构建具有“社交属性”的合成语音平台,未来将发布技术白皮书并扩展多语言支持。目前该模型已展现出不俗潜力,但如何在创新与伦理之间取得平衡,仍是这类新兴技术必须面对的课题。


文章标签: #语音AI #开源模型 #声纹克隆 #伦理争议 #初创团队

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。