NVIDIA(英伟达)OpenAI(开放人工智能)携手推出面向消费者的最新gpt-oss系列AI开源模型,可在RTX显卡上实现最高性能表现。

Cover Image

英伟达RTX 5090OpenAI gpt-oss 20b模型上实现每秒250 token的处理速度,专业级PRO显卡更可支持gpt-oss 120b大模型运行。

今日发布的新闻稿显示,英伟达宣布与OpenAI达成合作,将新一代gpt-oss开源模型引入消费级市场。这使得原本仅限云端数据中心使用的尖端AI技术,如今能够在搭载RTX显卡的PC和工作站上实现惊人速度的本地运行。

英伟达创始人兼首席执行官黄仁勋(Jensen Huang)强调了本次发布的重要意义:

OpenAI向世界展示了基于英伟达AI技术构建的可能性,如今他们正在推动开源软件领域的创新。”黄仁勋表示,“gpt-oss模型让全球开发者都能基于这个顶尖的开源基础进行构建,从而强化美国在AI领域的技术领导地位——这一切都运行在全球最大的AI计算基础设施之上。”

此次发布标志着新一代更快速、更智能的设备端AI时代来临,由GeForce RTX显卡PRO专业显卡提供强劲算力支持。目前推出两个新版本模型以满足全生态需求:

gpt-oss-20b模型专为配备至少16GB显存英伟达RTX AI PC优化,在RTX 5090显卡上可实现每秒250 token的峰值性能

• 更大规模的gpt-oss-120b模型则支持由英伟达RTX PRO显卡加速的专业工作站

这些基于英伟达H100 GPU训练的模型,是首批支持MXFP4精度RTX平台模型。该技术在保持性能零损耗的前提下,相较传统方法显著提升了模型质量与准确性。两款模型均支持长达131,072的上下文长度,属当前本地推理领域的顶尖水平。其采用灵活的专家混合(MoE)架构,具备思维链能力,并支持指令跟随与工具调用功能。

本周的RTX AI Garage活动重点展示了AI爱好者与开发者如何在英伟达RTX显卡上启用新款OpenAI模型:

Ollama应用:通过新版Ollama可最便捷地测试这些模型。其用户界面提供对gpt-oss系列模型的开箱即用支持,并针对RTX显卡进行全优化

Llama.cpp英伟达正与开源社区合作优化RTX显卡性能,近期贡献包括采用CUDA Graphs技术降低系统开销。开发者可通过Llama.cpp GitHub代码库快速入门

Microsoft AI Foundry:Windows开发者可通过公测版的Microsoft AI Foundry Local访问模型,仅需在终端运行“Foundry model run gpt-oss-20b”命令即可轻松启动


文章标签: #英伟达 #OpenAI #AI模型 #RTX显卡 #开源

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。