OpenAI发布GPT-4.1模型，专注代码生成能力

OpenAI于本周一发布了名为GPT-4.1的全新模型家族。没错，就是“4.1”这个版本号——这家公司的命名体系本就令人困惑，现在更是雪上加霜。

Cover Image

此次推出的GPT-4.1系列包含标准版、mini版和nano版三款模型。OpenAI宣称这些多模态模型在代码生成和指令遵循方面表现“卓越”，虽然暂未整合进ChatGPT，但已通过API开放使用。该系列模型具备100万token的上下文窗口，意味着单次可处理约75万字的内容（超过《战争与和平》的篇幅）。

GPT-4.1的发布正值谷歌（Google）和Anthropic等竞争对手加速开发复杂编程模型之际。谷歌最新推出的Gemini 2.5 Pro同样具备百万级token处理能力，在主流编程基准测试中表现优异。Anthropic的Claude 3.7 Sonnet与中国AI初创公司深度求索（DeepSeek）的V3升级版亦不遑多让。

训练能够执行复杂软件工程任务的AI编程模型，正是OpenAI等科技巨头的共同目标。正如首席财务官莎拉·弗莱尔（Sarah Friar）上月伦敦科技峰会所言，OpenAI的宏图是打造“具有自主意识的软件工程师”。该公司宣称其未来模型将能端到端完成整个应用程序开发，包括质量保证、漏洞测试和技术文档撰写等环节。

OpenAI发言人通过邮件表示：“我们根据开发者直接反馈优化了GPT-4.1的现实应用能力，重点提升前端编码、减少冗余修改、稳定遵循格式、严守响应结构与顺序、保持工具使用一致性等核心需求。这些改进使开发者能构建更擅长实际软件工程任务的智能体。”

据称，完整版GPT-4.1在SWE-bench等编程基准测试中表现优于GPT-4o系列。mini版和nano版则以牺牲部分准确性为代价换取效率提升，其中nano版被标榜为OpenAI史上速度最快、成本最低的模型。

价格方面（按当前汇率折算为人民币）：

GPT-4.1：输入token每百万2美元（14.5元），输出token每百万8美元（58元）
GPT-4.1 mini：输入token每百万0.4美元（2.9元），输出token每百万1.6美元（11.6元）
GPT-4.1 nano：输入token每百万0.1美元（0.72元），输出token每百万0.4美元（2.9元）

OpenAI内部测试显示，单次可生成32768个token的GPT-4.1（GPT-4o为16384个），在人工验证的SWE-bench子集测试中获得52%-54.6%的准确率（该公司解释称部分解决方案无法在其基础设施运行，故呈现分数区间）。这一成绩略逊于谷歌Gemini 2.5 Pro（63.8%）和AnthropicClaude 3.7 Sonnet（62.3%）同期测试结果。

在视频理解专项评估Video-MME中，GPT-4.1以72%准确率在“无字幕长视频”类别夺魁。虽然该模型基准测试表现良好，且知识截止更新至2024年6月，但需注意即使顶尖模型在专家级任务中仍会出错。多项研究表明，代码生成模型常无法修复安全漏洞，甚至可能引入新问题。

OpenAI坦承，GPT-4.1随着处理token量增加，可靠性会逐步下降。在其OpenAI-MRCR测试中，模型准确率从处理8000token时的84%骤降至百万token时的50%。相比GPT-4o，新模型对提示词的要求更为严格，往往需要更具体明确的指令。

搜索结果如下

阅读全文

OpenAI发布GPT-4.1模型，专注代码生成能力

也可以看看

请愿促苹果更新停产路由器，修复AirBorne漏洞

阅读全文

SpaceX重启星舰九号测试，得州深夜点火测试

阅读全文

《死神来了6》超前口碑炸裂，系列最佳血腥盛宴来袭

阅读全文