本周五,OpenAI正式推出了全新的AI推理模型o3-mini,这是其o系列推理模型的最新成员。早在去年12月,OpenAI就曾预览过这款模型,并同时展示了更强大的o3系统。然而,此次发布对于OpenAI来说意义非凡,因为它正处于一个关键的发展节点:公司不仅要应对来自中国企业的激烈竞争,还要巩固与美国政府的关系,同时推进其雄心勃勃的数据中心项目,并为史上最大规模的融资之一做准备。

GettyImages-2021258442

更高效、更实惠的推理模型

o3-mini的推出标志着OpenAI在AI推理领域迈出了重要一步。与大多数大型语言模型不同,o3-mini在给出答案之前会进行彻底的事实核查,从而避免了传统模型常见的错误。虽然这使得它在得出结论时稍慢一些,但换来的是更高的可靠性,尤其是在物理学等对准确性要求极高的领域。

o3-mini专注于STEM领域的复杂问题,包括编程、数学和科学。OpenAI表示,该模型在性能上与o1系列(包括o1和o1-mini)相当,但运行速度更快,成本更低。在外部测试中,o3-mini的表现令人瞩目:它在超过一半的情况下比o1-mini更受测试者青睐,并且在“棘手现实问题”的测试中,错误率比o1-mini降低了39%,同时回答速度提升了约24%,且答案更加清晰易懂。

用户如何使用o3-mini

从周五开始,o3-mini将通过ChatGPT向所有用户开放。对于订阅了ChatGPT Plus和团队计划的用户,每天将获得150次查询的更高限额。ChatGPT Pro用户则可以享受无限制的访问权限。此外,o3-mini将在一周内面向ChatGPT Enterprise和ChatGPT Edu客户开放,但目前尚未明确是否会向ChatGPT Gov用户开放。

对于付费用户,可以通过ChatGPT的下拉菜单直接选择o3-mini。免费用户则可以通过点击聊天栏中的“推理”按钮或让ChatGPT重新生成答案来使用该模型。

此外,从周五起,o3-mini还将通过OpenAI的API向部分开发者开放,但暂时不支持图像分析功能。开发者可以根据具体需求选择低、中、高三档“推理工作量”,以平衡响应速度和准确性。

成本优势与性能表现

o3-mini的定价为每百万缓存输入标记0.55美元,每百万输出标记4.40美元,相比之下,o1-mini的费用要高出63%。这一价格与DeepSeek的R1推理模型相当,后者通过API提供R1访问时,每百万缓存输入标记收费0.14美元,每百万输出标记收费2.19美元。

在ChatGPT中,o3-mini默认设置为中等推理工作量,OpenAI表示这在速度和准确性之间达到了较好的平衡。付费用户还可以选择“o3-mini-high”模式,以获得更高的智能表现,尽管这会牺牲一些响应速度。无论用户选择哪种模式,o3-mini都将结合搜索功能,提供带有相关网页链接的最新答案。不过,OpenAI也提醒称,这一功能目前仍处于原型阶段,公司正在努力将其整合到所有推理模型中。

专业化的技术替代方案

尽管o3-mini并非OpenAI目前最强大的模型,也没有在所有基准测试中全面超越DeepSeek的R1推理模型,但它在特定领域表现出了显著的优势。例如,在高推理工作量下,o3-mini在AIME 2024测试中胜过了R1,该测试衡量模型理解和响应复杂指令的能力。在专注于编程的SWE-bench Verified测试中,o3-mini也以微弱优势领先。然而,在低推理工作量下,o3-mini在测试博士级物理、生物和化学问题的GPQA Diamond测试中落后于R1。

尽管如此,o3-mini在成本和延迟方面的表现仍然极具竞争力。在中等推理工作量下,o3-mini在数学、编程和科学领域的表现与o1相当,同时响应速度更快。在高推理工作量下,o3-mini的表现甚至超过了o1和o1-mini。不过,值得注意的是,o3-mini在某些测试中的领先优势并不明显。例如,在高推理工作量下,o3-mini在AIME 2024测试中仅比o1高出0.3个百分点,而在GPQA Diamond测试中,即使在高推理工作量下,o3-mini也未能超过o1的得分。

安全性与未来展望

OpenAI强调,o3-mini在安全性方面与o1系列相当甚至更胜一筹。通过红队测试和“深思熟虑的对齐”方法,o3-mini在回答问题时会考虑OpenAI的安全政策,从而确保更高的安全性。据OpenAI称,o3-mini在“具有挑战性的安全性和越狱评估”中表现优异,甚至超过了其旗舰模型GPT-4o。

o3-mini的推出不仅为需要精确性和速度的技术领域提供了一个专业化的替代方案,也标志着OpenAI在推动成本效益智能方面迈出了重要一步。随着o3-mini的广泛应用,AI技术的普及和可及性将进一步提升,为更多用户带来高效、可靠且实惠的智能体验。


文章标签: #人工智能 #推理模型 #OpenAI #高效智能 #成本效益

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。