OpenAI于本周一发布了名为GPT-4.1的全新模型家族。没错,就是“4.1”这个版本号——这家公司的命名体系本就令人困惑,现在更是雪上加霜。
此次推出的GPT-4.1系列包含标准版、mini版和nano版三款模型。OpenAI宣称这些多模态模型在代码生成和指令遵循方面表现“卓越”,虽然暂未整合进ChatGPT,但已通过API开放使用。该系列模型具备100万token的上下文窗口,意味着单次可处理约75万字的内容(超过《战争与和平》的篇幅)。
GPT-4.1的发布正值谷歌(Google)和Anthropic等竞争对手加速开发复杂编程模型之际。谷歌最新推出的Gemini 2.5 Pro同样具备百万级token处理能力,在主流编程基准测试中表现优异。Anthropic的Claude 3.7 Sonnet与中国AI初创公司深度求索(DeepSeek)的V3升级版亦不遑多让。
训练能够执行复杂软件工程任务的AI编程模型,正是OpenAI等科技巨头的共同目标。正如首席财务官莎拉·弗莱尔(Sarah Friar)上月伦敦科技峰会所言,OpenAI的宏图是打造“具有自主意识的软件工程师”。该公司宣称其未来模型将能端到端完成整个应用程序开发,包括质量保证、漏洞测试和技术文档撰写等环节。
OpenAI发言人通过邮件表示:“我们根据开发者直接反馈优化了GPT-4.1的现实应用能力,重点提升前端编码、减少冗余修改、稳定遵循格式、严守响应结构与顺序、保持工具使用一致性等核心需求。这些改进使开发者能构建更擅长实际软件工程任务的智能体。”
据称,完整版GPT-4.1在SWE-bench等编程基准测试中表现优于GPT-4o系列。mini版和nano版则以牺牲部分准确性为代价换取效率提升,其中nano版被标榜为OpenAI史上速度最快、成本最低的模型。
价格方面(按当前汇率折算为人民币):
GPT-4.1:输入token每百万2美元(14.5元),输出token每百万8美元(58元)
GPT-4.1 mini:输入token每百万0.4美元(2.9元),输出token每百万1.6美元(11.6元)
GPT-4.1 nano:输入token每百万0.1美元(0.72元),输出token每百万0.4美元(2.9元)
OpenAI内部测试显示,单次可生成32768个token的GPT-4.1(GPT-4o为16384个),在人工验证的SWE-bench子集测试中获得52%-54.6%的准确率(该公司解释称部分解决方案无法在其基础设施运行,故呈现分数区间)。这一成绩略逊于谷歌Gemini 2.5 Pro(63.8%)和AnthropicClaude 3.7 Sonnet(62.3%)同期测试结果。
在视频理解专项评估Video-MME中,GPT-4.1以72%准确率在“无字幕长视频”类别夺魁。虽然该模型基准测试表现良好,且知识截止更新至2024年6月,但需注意即使顶尖模型在专家级任务中仍会出错。多项研究表明,代码生成模型常无法修复安全漏洞,甚至可能引入新问题。
OpenAI坦承,GPT-4.1随着处理token量增加,可靠性会逐步下降。在其OpenAI-MRCR测试中,模型准确率从处理8000token时的84%骤降至百万token时的50%。相比GPT-4o,新模型对提示词的要求更为严格,往往需要更具体明确的指令。