OpenAI发布GPT-4.5猎户座其最大AI模型性能与局限并存

3月3日，OpenAI正式宣布推出备受瞩目的人工智能模型——GPT-4.5，代号“猎户座”。作为OpenAI迄今为止规模最大的模型，GPT-4.5在训练过程中使用了比以往任何产品都强大的计算能力和海量数据。然而，尽管其规模庞大，OpenAI在白皮书中明确表示，GPT-4.5并非一款前沿模型。

Cover Image

GPT-4.5的发布引发了行业的广泛关注。它采用了与GPT-4、GPT-3、GPT-2和GPT-1相同的开发方法，即在无监督学习阶段大幅增加计算能力和数据量。在过去几代模型中，这种规模的提升带来了性能的显著飞跃，尤其是在数学、写作和编程等领域。然而，GPT-4.5的表现却显示出一些新的趋势：随着数据和计算能力的增加，性能提升开始趋于平稳。在多个AI基准测试中，GPT-4.5未能超越来自中国人工智能公司DeepSeek、Anthropic以及OpenAI自身推出的新一代AI推理模型。

此外，GPT-4.5的运行成本极高。OpenAI承认，其高昂的费用甚至让公司考虑是否在长期内继续通过API提供该模型。目前，使用GPT-4.5的API，开发者需要支付每百万输入标记75美元（约合75万字）和每百万输出标记150美元的费用。相比之下，GPT-4o的费用仅为每百万输入标记2.5美元和每百万输出标记10美元。

OpenAI以研究预览的形式推出GPT-4.5，旨在更好地了解其优势和局限性。公司表示：“我们仍在探索GPT-4.5的能力，并期待看到人们以我们未曾预料到的方式使用它。”不过，GPT-4.5并非旨在直接替代GPT-4o，后者是OpenAI用于支持其大部分API和ChatGPT的主力模型。尽管GPT-4.5支持文件和图像上传以及ChatGPT的画布工具等功能，但它目前仍缺乏对ChatGPT真实双向语音模式的支持。

在性能方面，GPT-4.5的表现参差不齐。在OpenAI的SimpleQA基准测试中，该测试针对AI模型在简单事实性问题上的表现，GPT-4.5在准确性方面超越了GPT-4o以及OpenAI的推理模型o1和o3-mini。然而，Perplexity的深度研究模型在这一测试中超越了GPT-4.5。在编程问题的测试中，GPT-4.5的表现也并不完美。在SWE-Bench Verified基准测试中，它与GPT-4o和o3-mini的表现相当，但在SWE-Lancer基准测试中，它未能超越深度研究模型。

尽管如此，GPT-4.5在一些领域仍然表现出色。例如，在数学和科学相关问题上，它与领先的非推理模型相当甚至更好。此外，OpenAI还声称GPT-4.5在一些基准测试难以衡量的领域——例如理解人类意图、回应语气的自然度以及创造性任务（如写作和设计）——优于其他模型。在一项非正式测试中，GPT-4.5在用SVG格式创建独角兽的任务中，是唯一成功生成类似独角兽图形的模型。在另一项测试中，GPT-4.5对“考试失败后，我正经历一段艰难时期”的回应最为得体。

然而，GPT-4.5的局限性也引发了行业对预训练“规模法则”的重新思考。OpenAI联合创始人兼前首席科学家伊利亚·苏茨克弗（Ilya Sutskever）曾表示：“我们已经达到了数据的巅峰，预训练将不可避免地走向终结。”为了应对这一挑战，行业开始转向推理模型，这些模型虽然完成任务所需的时间更长，但表现更加稳定。OpenAI计划在今年晚些时候推出GPT-5时，将GPT系列模型与“o”推理系列相结合。尽管GPT-4.5的训练成本高昂且未能达到内部预期，但它可能是通往更强大模型的垫脚石。

搜索结果如下

阅读全文

OpenAI发布GPT-4.5猎户座其最大AI模型性能与局限并存

也可以看看

鼠托邦正式发售，萌鼠治国需平衡经济民生

阅读全文

谷歌AI模式扩大开放，新增多项实用功能

阅读全文

《疾速追杀》男星新片曝光，西部动作片火爆来袭

阅读全文