OpenAI升级语音转录与生成AI模型

菠萝老师先生 | 2025年3月24日

分类： 人工智能 | 2 分钟 | 736 个字

OpenAI宣布将全新语音转录与生成模型接入API平台，宣称此次升级实现了技术突破。此次更新标志着该公司向"智能代理"战略迈出关键步伐，旨在打造能够自主执行用户任务的智能系统。

Cover Image

新产品矩阵包含两大核心组件：

文本转语音系统"gpt-4o-mini-tts"（原型号gpt-4o-mini-tts）：

支持自然语言指令控制语音风格
可精准模拟"疯狂科学家"或"冥想导师"等特定声线
提供"真实犯罪纪录片风格"沙哑声线等多样化选择（此处原音频链接已移除）
可生成"专业女性"等定制化语音（此处原音频链接已移除）

语音转录系统双模型架构：

旗舰版gpt-4o-transcribe（原型号gpt-4o-transcribe）
轻量版gpt-4o-mini-transcribe（原型号gpt-4o-mini-transcribe）

据产品负责人杰夫·哈里斯（Jeff Harris）透露，转录系统突破体现在：

采用全新训练数据集，支持复杂环境下的多语言识别
显著降低"音频幻觉"风险，杜绝虚构医疗建议等严重错误
支持达罗毗荼语系等小众语言识别（泰米尔语等语言单词错误率约30%）

值得注意的是，OpenAI首次打破开源传统：

新模型不再采用MIT开源协议
技术团队解释因模型体积过大（无法在普通笔记本本地运行）
未来开源计划将重点优化终端设备适配性

产品战略主管奥利维尔·戈德蒙（Olivier Godement）强调："未来半年将见证智能代理技术爆发，我们的核心是提供精准可靠的对话解决方案。"该公司预计2025年下半年推出针对客服场景的情感语音控制系统。

文章标签： #语音AI #智能代理 #多语言 #语音风格 #转录

负责编辑

菠萝老师先生

让你的每一个瞬间都充满意义地生活，因为在生命的尽头，衡量的不是你活了多少年，而是你如何度过这些年。

也可以看看

Netflix末日新剧口碑出炉，能否比肩最后生还者

2025年5月2日 | 3 分钟 | 1069 个字
分类：影视

Netflix末日科幻剧《永恒者》烂番茄开局89%，改编自经典漫画，讲述外星入侵下普通人抗争故事。媒体盛赞其现代化改编与悬疑张力，主演表演获肯定。

阅读全文

assets/still-from-the-eternaut.jpeg

谷歌音频概览升级，支持超50种语言，打造个性化AI播客

2025年5月2日 | 2 分钟 | 661 个字
分类： 人工智能

谷歌升级NotebookLM音频概览功能，新增50多种语言支持，用户可自由选择播报语言，实现多语言无缝切换，提升AI播客的普适性。

阅读全文

assets/Audio-Overview-e1746058660828.jpeg

Switch版西瓜游戏免费更新，新增道具对战模式

2025年5月2日 | 2 分钟 | 602 个字
分类：游戏

5月1日Switch版《西瓜游戏》推出免费更新，新增含道具系统的对战模式“道具战”，玩家可策略性使用6种特色道具干扰对手或强化自身。

阅读全文

assets/suikagame-20250501-337218-header.jpeg