3月3日,OpenAI正式宣布推出备受瞩目的人工智能模型——GPT-4.5,代号“猎户座”。作为OpenAI迄今为止规模最大的模型,GPT-4.5在训练过程中使用了比以往任何产品都强大的计算能力和海量数据。然而,尽管其规模庞大,OpenAI在白皮书中明确表示,GPT-4.5并非一款前沿模型。
GPT-4.5的发布引发了行业的广泛关注。它采用了与GPT-4、GPT-3、GPT-2和GPT-1相同的开发方法,即在无监督学习阶段大幅增加计算能力和数据量。在过去几代模型中,这种规模的提升带来了性能的显著飞跃,尤其是在数学、写作和编程等领域。然而,GPT-4.5的表现却显示出一些新的趋势:随着数据和计算能力的增加,性能提升开始趋于平稳。在多个AI基准测试中,GPT-4.5未能超越来自中国人工智能公司DeepSeek、Anthropic以及OpenAI自身推出的新一代AI推理模型。
此外,GPT-4.5的运行成本极高。OpenAI承认,其高昂的费用甚至让公司考虑是否在长期内继续通过API提供该模型。目前,使用GPT-4.5的API,开发者需要支付每百万输入标记75美元(约合75万字)和每百万输出标记150美元的费用。相比之下,GPT-4o的费用仅为每百万输入标记2.5美元和每百万输出标记10美元。
OpenAI以研究预览的形式推出GPT-4.5,旨在更好地了解其优势和局限性。公司表示:“我们仍在探索GPT-4.5的能力,并期待看到人们以我们未曾预料到的方式使用它。”不过,GPT-4.5并非旨在直接替代GPT-4o,后者是OpenAI用于支持其大部分API和ChatGPT的主力模型。尽管GPT-4.5支持文件和图像上传以及ChatGPT的画布工具等功能,但它目前仍缺乏对ChatGPT真实双向语音模式的支持。
在性能方面,GPT-4.5的表现参差不齐。在OpenAI的SimpleQA基准测试中,该测试针对AI模型在简单事实性问题上的表现,GPT-4.5在准确性方面超越了GPT-4o以及OpenAI的推理模型o1和o3-mini。然而,Perplexity的深度研究模型在这一测试中超越了GPT-4.5。在编程问题的测试中,GPT-4.5的表现也并不完美。在SWE-Bench Verified基准测试中,它与GPT-4o和o3-mini的表现相当,但在SWE-Lancer基准测试中,它未能超越深度研究模型。
尽管如此,GPT-4.5在一些领域仍然表现出色。例如,在数学和科学相关问题上,它与领先的非推理模型相当甚至更好。此外,OpenAI还声称GPT-4.5在一些基准测试难以衡量的领域——例如理解人类意图、回应语气的自然度以及创造性任务(如写作和设计)——优于其他模型。在一项非正式测试中,GPT-4.5在用SVG格式创建独角兽的任务中,是唯一成功生成类似独角兽图形的模型。在另一项测试中,GPT-4.5对“考试失败后,我正经历一段艰难时期”的回应最为得体。
然而,GPT-4.5的局限性也引发了行业对预训练“规模法则”的重新思考。OpenAI联合创始人兼前首席科学家伊利亚·苏茨克弗(Ilya Sutskever)曾表示:“我们已经达到了数据的巅峰,预训练将不可避免地走向终结。”为了应对这一挑战,行业开始转向推理模型,这些模型虽然完成任务所需的时间更长,但表现更加稳定。OpenAI计划在今年晚些时候推出GPT-5时,将GPT系列模型与“o”推理系列相结合。尽管GPT-4.5的训练成本高昂且未能达到内部预期,但它可能是通往更强大模型的垫脚石。