OpenAI发布两款开源AI推理模型，性能对标商业产品

OpenAI于本周二宣布推出两款开源权重的人工智能推理模型，其性能与该公司o系列产品相当。OpenAI表示，这两款模型已在其在线开发者平台Hugging Face上提供免费下载，并宣称这些模型在多项开源模型基准测试中均达到“最先进水平”。

Cover Image

新发布模型包含两种规格：性能更强的gpt-oss-120b可在单块Nvidia GPU上运行，而轻量级的gpt-oss-20b则适配内存为16GB的消费级笔记本电脑。这是OpenAI自五年前发布GPT-2以来首次推出“开源”语言模型。

据TechCrunch此前报道，OpenAI在简报中透露，其开源模型能够向云端AI模型发送复杂查询。这意味着当开源模型无法完成特定任务（如图像处理）时，开发者可将其接入该公司性能更强的闭源模型。

尽管OpenAI早期曾开源AI模型，但近年来主要采用专有闭源开发模式。这一策略帮助该公司通过API向企业和开发者销售AI模型访问权限，建立起庞大商业体系。不过，首席执行官萨姆·奥尔特曼（Sam Altman）在今年1月坦言，在技术开源方面“站在了历史错误的一边”。当前OpenAI正面临来自中国AI实验室的竞争压力，包括深度求索（DeepSeek）、阿里巴巴的通义千问（Qwen）和月之暗面（Moonshot AI）等团队已开发出多款全球顶尖的开源模型。

今年7月，特朗普政府也敦促美国AI开发者加大技术开源力度，以推动符合美国价值观的AI技术全球应用。通过发布gpt-oss，OpenAI希望同时赢得开发者和美国政府青睐。奥尔特曼在声明中强调：“自2015年创立以来，OpenAI的使命就是确保AGI造福全人类。我们期待世界能基于美国创建的开放AI技术栈进行建设。”

在技术表现方面，OpenAI宣称其开源模型已成为同类产品中的佼佼者。在编程竞赛平台Codeforces测试中，gpt-oss-120b和gpt-oss-20b分别获得2622和2516分，优于深度求索的R1但逊于o3和o4-mini。在跨学科综合测试Humanity's Last Exam中，两款模型得分分别为19%和17.3%，同样介于闭源模型与竞争对手之间。

值得注意的是，OpenAI开源模型的“幻觉”现象显著多于其最新推理模型。在内部基准测试PersonQA中，两款模型的幻觉发生率分别达49%和53%，远超o1模型的16%。公司解释称“这是预期现象，较小模型的世界知识储备较少，更易产生幻觉”。

技术文档显示，新模型采用与专有模型相似的训练流程，运用专家混合（MoE）技术实现高效运算。gpt-oss-120b虽拥有1170亿参数，但每个令牌仅激活51亿参数。公司还采用高算力强化学习（RL）进行训练后优化，使模型具备调用网络搜索或Python代码执行等工具的能力，但暂不支持图像和音频处理。

OpenAI以Apache 2.0许可协议发布新模型，允许企业自由商用。不过公司明确表示不会公开训练数据，这在当前多起AI版权诉讼的背景下并不意外。为确保安全，OpenAI推迟数月发布以评估风险，最终认定模型即便经微调也难以达到危险能力阈值。

尽管OpenAI的新模型在当前开源领域表现优异，但开发者正密切关注深度求索即将发布的R2，以及Meta新成立超级智能实验室的开源进展。

搜索结果如下

阅读全文

OpenAI发布两款开源AI推理模型，性能对标商业产品

也可以看看

性感醉步动作游戏《酩酊大醉兔女郎》NS与Steam版演出差异公开，含胸部晃动幅度等对比

阅读全文

约翰·波耶加称若由其制片，星球大战续集将截然不同

阅读全文

OpenAI拟租赁英伟达GPU，而非直接购买芯片

阅读全文