OpenAI宣布将全新语音转录与生成模型接入API平台,宣称此次升级实现了技术突破。此次更新标志着该公司向"智能代理"战略迈出关键步伐,旨在打造能够自主执行用户任务的智能系统。
新产品矩阵包含两大核心组件:
- 文本转语音系统"gpt-4o-mini-tts"(原型号gpt-4o-mini-tts):
支持自然语言指令控制语音风格
可精准模拟"疯狂科学家"或"冥想导师"等特定声线
提供"真实犯罪纪录片风格"沙哑声线等多样化选择(此处原音频链接已移除)
可生成"专业女性"等定制化语音(此处原音频链接已移除)
- 语音转录系统双模型架构:
旗舰版gpt-4o-transcribe(原型号gpt-4o-transcribe)
轻量版gpt-4o-mini-transcribe(原型号gpt-4o-mini-transcribe)
据产品负责人杰夫·哈里斯(Jeff Harris)透露,转录系统突破体现在:
采用全新训练数据集,支持复杂环境下的多语言识别
显著降低"音频幻觉"风险,杜绝虚构医疗建议等严重错误
支持达罗毗荼语系等小众语言识别(泰米尔语等语言单词错误率约30%)
值得注意的是,OpenAI首次打破开源传统:
新模型不再采用MIT开源协议
技术团队解释因模型体积过大(无法在普通笔记本本地运行)
未来开源计划将重点优化终端设备适配性
产品战略主管奥利维尔·戈德蒙(Olivier Godement)强调:"未来半年将见证智能代理技术爆发,我们的核心是提供精准可靠的对话解决方案。"该公司预计2025年下半年推出针对客服场景的情感语音控制系统。