人工智能语音生成技术已在有声书制作、播客录制、文章朗读及基础客服等场景实现应用,但其可靠性不足仍是阻碍企业采用的关键因素。针对这一行业痛点,麻省理工学院(MIT)毕业生莫因·纳迪姆(Moin Nadeem)和尼基尔·穆尔蒂(Nikhil Murthy)联手创立Phonic公司,致力于构建端到端的语音技术栈,在提升合成语音可靠性的同时显著降低延迟。

Cover Image

这对合作七年的校友发现,当前市场缺乏完整的语音技术解决方案。“语音人工智能领域就像拼图游戏,需要将自动语音识别、文本转语音等模块拼接后注入智能元素。”穆尔蒂向TechCrunch透露,“但实际调研显示,市场严重缺乏可规模化应用的可靠方案。”

曾任职于被Databricks以13亿美元收购的MosaicML公司的纳迪姆指出,包括Vapi和Rounded在内的竞争者多采用拼凑独立人工智能模型的工作流。Phonic则选择自主研发端到端内部模型训练体系。“自有模型能让我们将可靠性模块深度集成到系统底层,”穆尔蒂强调,“若放弃底层控制权,就只能强行拼接不兼容的零散组件。”

这种全栈开发模式带来了显著成本优势。通过采用带口音、模糊语音等多样化录音训练模型,Phonic显著提升了系统鲁棒性。目前该公司正与保险、医疗等领域的战略合作伙伴开展测试,计划在未来数月推出公开产品。纳迪姆透露潜在客户即将通过官网体验其核心技术。

Phonic近期完成由Lux资本领投的400万美元种子轮融资,跟投方包括Replit联合创始人阿姆贾德·马萨德(Amjad Masad)、Hugging Face联合创始人克莱姆·德朗格(Clem Delangue)等科技领袖。Lux资本合伙人格蕾丝·伊斯福德(Grace Isford)特别指出:“创始团队不仅具备深厚的MIT机器学习背景,其将扩散模型与专有模型融合的创新思路,正在重新定义语音人工智能的可能性边界。”


文章标签: #人工智能 #语音技术 #创业公司 #种子融资 #MIT

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。