周三,OpenAI(开放人工智能)宣布推出全新AI推理模型o3与o4-mini,这些模型能够在回应前暂停思考并逐步解决问题。

Cover Image

该公司称o3是其有史以来最先进的推理模型,在数学、编程、推理、科学和视觉理解能力的测试中表现优于此前所有模型。而o4-mini则提供了OpenAI宣称的“价格、速度与性能的平衡方案”——开发者选择AI模型时通常重点考量的三大要素。

与先前推理模型不同,o3和o4-mini能调用ChatGPT(聊天生成预训练转换器)的网页浏览、Python代码执行、图像处理与生成等功能工具。即日起,订阅OpenAI专业版、增强版及团队计划的用户即可使用这些模型,其中还包括名为“o4-mini-high”的增强版本——该版本通过延长思考时间来提升回答可靠性。

新模型的推出是OpenAI在全球激烈AI竞赛中抗衡谷歌(Google)、Meta(元宇宙)、xAI(马斯克人工智能公司)、Anthropic(人类基座)和深度求索(DeepSeek)的重要举措。尽管OpenAI率先发布AI推理模型o1,但竞争对手迅速推出性能相当甚至更优的同类产品。事实上,随着各AI实验室竭力挖掘系统潜力,推理模型已开始主导该领域。

o3原本可能不会登陆ChatGPT。OpenAI首席执行官山姆·阿尔特曼(Sam Altman)二月曾暗示,公司将集中资源开发整合o3技术的更复杂替代方案。但竞争压力最终促使OpenAI改变了策略。

OpenAI表示,o3在SWE-bench编码能力测试(未使用自定义脚手架)中达到69.1%的最先进水平。o4-mini表现相近,获得68.1%的分数。OpenAI次优模型o3-mini得分为49.3%,而Claude 3.7 Sonnet(克劳德3.7十四行诗)取得62.3%的成绩。

OpenAI宣称o3与o4-mini是其首批具备“图像思维”能力的模型。实际应用中,用户可向ChatGPT上传白板草图或PDF图表等图像,模型将在“思维链”阶段分析图像后再作答。凭借这项新能力,两款模型能理解模糊低质图像,并可在推理过程中执行缩放旋转等操作。

除图像处理外,o3和o4-mini还能通过ChatGPT的Canvas(画布)功能在浏览器直接运行Python代码,并针对时事问题进行网络检索。

除ChatGPT外,o3、o4-mini和o4-mini-high三款模型都将通过OpenAI面向开发者的Chat Completions API(聊天补全应用程序接口)和Responses API(响应应用程序接口)端点开放,工程师可按用量付费构建应用。

考虑到性能提升,OpenAI对o3的定价相对亲民:每百万输入token(约75万字,超越《魔戒》三部曲篇幅)收费10美元(70元人民币),每百万输出token收费40美元(280元人民币)。o4-mini则维持与o3-mini相同定价:每百万输入/输出token分别为1.1美元(7.7元人民币)4.4美元(30.8元人民币)

OpenAI表示未来数周将推出o3-pro版本,该版本专为ChatGPT专业版订阅用户设计,会消耗更多计算资源生成答案。

OpenAI首席执行官阿尔特曼暗示,在GPT-5问世前,o3和o4-mini可能是ChatGPT最后两款独立AI推理模型。据该公司透露,GPT-5将整合GPT-4.1等传统模型与现有推理模型体系。


文章标签: #AI #OpenAI #推理模型 #ChatGPT #Python

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。