亚马逊发布AI语音模型新星声纳，性能比肩OpenAI

亚马逊推出全新生成式AI模型“新星声纳”（Nova Sonic），该模型具备原生语音处理能力，可生成自然流畅的语音对话。亚马逊宣称，在速度、语音识别和对话质量的基准测试中，新星声纳的表现与OpenAI和谷歌的前沿语音模型不相上下。

Cover Image

这款新模型是亚马逊对ChatGPT语音模式等新型AI语音技术的回应。相比亚马逊Alexa早期生硬的语音交互，新星声纳能实现更自然的对话体验。技术突破使得Alexa和苹果Siri等传统数字助手相形见绌。

开发者可通过亚马逊企业级AI开发平台Bedrock的全新双向流式API调用新星声纳。亚马逊在新闻稿中称其为“市场上最具成本效益”的AI语音模型，定价比OpenAI的GPT-4o低约80%。

据亚马逊高级副总裁兼AGI首席科学家罗希特·普拉萨德透露，新星声纳的部分技术已应用于升级版数字语音助手Alexa+。普拉萨德表示，新星声纳继承了亚马逊在“大型编排系统”（即Alexa的技术架构）方面的专长，其独特优势在于能精准将用户请求路由至不同API接口，智能判断何时需要联网获取实时信息、解析专有数据源或触发外部应用程序。

亚马逊介绍，在双向对话中，新星声纳能根据对话停顿智能判断应答时机，并同步生成文字记录供开发者二次利用。普拉萨德强调，该模型在嘈杂环境或用户口齿不清时仍能准确识别意图，其多语言识别错误率显著低于竞品。在包含英、法、意、德、西五种语言的Multilingual LibriSpeech测试中，词错率仅为4.2%。

在多人嘈杂场景的Augmented Multi Party Interaction测试中，新星声纳的识别准确率较OpenAI的GPT-4o转写模型高出46.7%。据Artificial Analysis基准测试，其1.09秒的平均响应延迟也快于GPT-4o实时API的1.18秒。

普拉萨德表示，新星声纳是亚马逊构建通用人工智能（AGI）战略的重要组成。亚马逊将AGI定义为“能完成人类所有计算机操作任务的AI系统”。未来公司将推出更多支持图像、视频及“物理世界相关传感数据”的多模态AI模型。

由普拉萨德领导的AGI部门正深度参与亚马逊产品战略。上周该公司刚发布网页操作AI模型“新星行动”（Nova Act）预览版，该技术已应用于Alexa+和“代购服务”。普拉萨德透露，从新星声纳开始，亚马逊计划逐步开放更多内部AI模型供开发者使用。

搜索结果如下

阅读全文

亚马逊发布AI语音模型新星声纳，性能比肩OpenAI

也可以看看

拼趣整治AI垃圾，推出内容标签与推荐过滤功能

阅读全文

AMD多款处理器路线图曝光，涵盖美杜莎点、声波等新品

阅读全文

突破传统测速，Orb带来全网性能全景评估

阅读全文