OpenAI宣布将全新语音转录与生成模型接入API平台,宣称此次升级实现了技术突破。此次更新标志着该公司向"智能代理"战略迈出关键步伐,旨在打造能够自主执行用户任务的智能系统。

Cover Image

新产品矩阵包含两大核心组件:

  1. 文本转语音系统"gpt-4o-mini-tts"(原型号gpt-4o-mini-tts):
  • 支持自然语言指令控制语音风格

  • 可精准模拟"疯狂科学家"或"冥想导师"等特定声线

  • 提供"真实犯罪纪录片风格"沙哑声线等多样化选择(此处原音频链接已移除)

  • 可生成"专业女性"等定制化语音(此处原音频链接已移除)

  1. 语音转录系统双模型架构:
  • 旗舰版gpt-4o-transcribe(原型号gpt-4o-transcribe)

  • 轻量版gpt-4o-mini-transcribe(原型号gpt-4o-mini-transcribe)

据产品负责人杰夫·哈里斯(Jeff Harris)透露,转录系统突破体现在:

  • 采用全新训练数据集,支持复杂环境下的多语言识别

  • 显著降低"音频幻觉"风险,杜绝虚构医疗建议等严重错误

  • 支持达罗毗荼语系等小众语言识别(泰米尔语等语言单词错误率约30%)

值得注意的是,OpenAI首次打破开源传统:

  • 新模型不再采用MIT开源协议

  • 技术团队解释因模型体积过大(无法在普通笔记本本地运行)

  • 未来开源计划将重点优化终端设备适配性

产品战略主管奥利维尔·戈德蒙(Olivier Godement)强调:"未来半年将见证智能代理技术爆发,我们的核心是提供精准可靠的对话解决方案。"该公司预计2025年下半年推出针对客服场景的情感语音控制系统。


文章标签: #语音AI #智能代理 #多语言 #语音风格 #转录

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。