亚马逊推出全新生成式AI模型“新星声纳”(Nova Sonic),该模型具备原生语音处理能力,可生成自然流畅的语音对话。亚马逊宣称,在速度、语音识别和对话质量的基准测试中,新星声纳的表现与OpenAI和谷歌的前沿语音模型不相上下。

Cover Image

这款新模型是亚马逊对ChatGPT语音模式等新型AI语音技术的回应。相比亚马逊Alexa早期生硬的语音交互,新星声纳能实现更自然的对话体验。技术突破使得Alexa和苹果Siri等传统数字助手相形见绌。

开发者可通过亚马逊企业级AI开发平台Bedrock的全新双向流式API调用新星声纳。亚马逊在新闻稿中称其为“市场上最具成本效益”的AI语音模型,定价比OpenAI的GPT-4o低约80%

据亚马逊高级副总裁兼AGI首席科学家罗希特·普拉萨德透露,新星声纳的部分技术已应用于升级版数字语音助手Alexa+。普拉萨德表示,新星声纳继承了亚马逊在“大型编排系统”(即Alexa的技术架构)方面的专长,其独特优势在于能精准将用户请求路由至不同API接口,智能判断何时需要联网获取实时信息、解析专有数据源或触发外部应用程序。

亚马逊介绍,在双向对话中,新星声纳能根据对话停顿智能判断应答时机,并同步生成文字记录供开发者二次利用。普拉萨德强调,该模型在嘈杂环境或用户口齿不清时仍能准确识别意图,其多语言识别错误率显著低于竞品。在包含英、法、意、德、西五种语言的Multilingual LibriSpeech测试中,词错率仅为4.2%

在多人嘈杂场景的Augmented Multi Party Interaction测试中,新星声纳的识别准确率较OpenAI的GPT-4o转写模型高出46.7%。据Artificial Analysis基准测试,其1.09秒的平均响应延迟也快于GPT-4o实时API的1.18秒。

普拉萨德表示,新星声纳是亚马逊构建通用人工智能(AGI)战略的重要组成。亚马逊将AGI定义为“能完成人类所有计算机操作任务的AI系统”。未来公司将推出更多支持图像、视频及“物理世界相关传感数据”的多模态AI模型。

由普拉萨德领导的AGI部门正深度参与亚马逊产品战略。上周该公司刚发布网页操作AI模型“新星行动”(Nova Act)预览版,该技术已应用于Alexa+和“代购服务”。普拉萨德透露,从新星声纳开始,亚马逊计划逐步开放更多内部AI模型供开发者使用。


文章标签: #AI语音 #亚马逊 #新星声纳 #AGI #Alexa

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。