英伟达RTX显卡与OpenAI合作，推出gpt-oss开源模型

NVIDIA（英伟达）与OpenAI（开放人工智能）携手推出面向消费者的最新gpt-oss系列AI开源模型，可在RTX显卡上实现最高性能表现。

Cover Image

英伟达RTX 5090在OpenAI gpt-oss 20b模型上实现每秒250 token的处理速度，专业级PRO显卡更可支持gpt-oss 120b大模型运行。

今日发布的新闻稿显示，英伟达宣布与OpenAI达成合作，将新一代gpt-oss开源模型引入消费级市场。这使得原本仅限云端数据中心使用的尖端AI技术，如今能够在搭载RTX显卡的PC和工作站上实现惊人速度的本地运行。

英伟达创始人兼首席执行官黄仁勋（Jensen Huang）强调了本次发布的重要意义：

“OpenAI向世界展示了基于英伟达AI技术构建的可能性，如今他们正在推动开源软件领域的创新。”黄仁勋表示，“gpt-oss模型让全球开发者都能基于这个顶尖的开源基础进行构建，从而强化美国在AI领域的技术领导地位——这一切都运行在全球最大的AI计算基础设施之上。”

此次发布标志着新一代更快速、更智能的设备端AI时代来临，由GeForce RTX显卡和PRO专业显卡提供强劲算力支持。目前推出两个新版本模型以满足全生态需求：

• gpt-oss-20b模型专为配备至少16GB显存的英伟达RTX AI PC优化，在RTX 5090显卡上可实现每秒250 token的峰值性能

• 更大规模的gpt-oss-120b模型则支持由英伟达RTX PRO显卡加速的专业工作站

这些基于英伟达H100 GPU训练的模型，是首批支持MXFP4精度的RTX平台模型。该技术在保持性能零损耗的前提下，相较传统方法显著提升了模型质量与准确性。两款模型均支持长达131,072的上下文长度，属当前本地推理领域的顶尖水平。其采用灵活的专家混合（MoE）架构，具备思维链能力，并支持指令跟随与工具调用功能。

本周的RTX AI Garage活动重点展示了AI爱好者与开发者如何在英伟达RTX显卡上启用新款OpenAI模型：

• Ollama应用：通过新版Ollama可最便捷地测试这些模型。其用户界面提供对gpt-oss系列模型的开箱即用支持，并针对RTX显卡进行全优化

• Llama.cpp：英伟达正与开源社区合作优化RTX显卡性能，近期贡献包括采用CUDA Graphs技术降低系统开销。开发者可通过Llama.cpp GitHub代码库快速入门

• Microsoft AI Foundry：Windows开发者可通过公测版的Microsoft AI Foundry Local访问模型，仅需在终端运行“Foundry model run gpt-oss-20b”命令即可轻松启动