两名本科生开发AI语音模型，挑战NotebookLM

两名没有深厚人工智能背景的本科生宣称，他们开发了一个可公开获取的AI模型，能生成类似谷歌NotebookLM风格的播客片段。这个由韩国团队Nari Labs发布的新模型背后，联合创始人Toby Kim表示，他与搭档三个月前才开始学习语音AI技术。受NotebookLM启发，他们希望打造一个能让使用者更自由掌控生成音色和脚本的模型。

Cover Image

合成语音工具市场正迅猛扩张。行业巨头ElevenLabs面临诸多挑战者（如PlayAI、Sesame等）。据PitchBook数据，去年语音AI初创公司共获得超3.98亿美元（2.5亿元人民币）风险投资。Kim团队通过谷歌TPU研究云计划免费使用AI芯片，训练出拥有16亿参数的模型Dia。该模型能根据剧本生成对话，允许用户定制说话者语调，并加入停顿、咳嗽、笑声等非语言特征。

参数数量决定模型预测能力，通常参数越多性能越强。Dia可通过Hugging Face和GitHub平台获取，支持大多数配备10GB以上显存的现代电脑。除非指定风格描述，否则会随机生成音色，但也能克隆特定人声。科技媒体TechCrunch实测显示，Dia能流畅生成各类主题的双向对话，音质不逊于同类产品，其声纹克隆功能更是目前最简易的解决方案之一。

不过与多数语音生成工具类似，Dia缺乏防护机制，极易被用于制作虚假信息或诈骗录音。Nari虽在项目页面声明反对冒用身份、欺诈等非法行为，但明确表示对滥用概不负责。该团队尚未公开训练数据来源，Hacker News有用户指出某样本音色疑似美国公共广播电台《金钱星球》（Planet Money）主持人。使用受版权保护内容训练模型虽普遍存在但存在法律争议——AI公司多主张合理使用原则免责，而版权方则认为该原则不适用于机器学习。

Kim透露Nari计划以Dia为基础构建具有“社交属性”的合成语音平台，未来将发布技术白皮书并扩展多语言支持。目前该模型已展现出不俗潜力，但如何在创新与伦理之间取得平衡，仍是这类新兴技术必须面对的课题。

搜索结果如下

阅读全文

两名本科生开发AI语音模型，挑战NotebookLM

也可以看看

视觉小说《赠君一束花》5月29日发售，讲述无痛少年与神秘少女的青春物语

阅读全文

Win7早期版本加载慢，竟是纯色壁纸惹的祸

阅读全文

三星HBM4内存获英伟达青睐，欲重振存储业务

阅读全文