OpenAI集结AMD英伟达五巨头，共推MRC协议加速大规模AI训练

与AI领域的某一家或两家巨头合作已经非同小可，但OpenAI此次集结了AMD、英伟达（NVIDIA）、英特尔（Intel）、微软（Microsoft）和博通（Broadcom），共同加速大规模AI训练。

Screenshot_2026-05-01_at_12.02.44a_PM.jpeg

OpenAI最新宣布的是一项超级计算机网络合作计划，旨在加速大规模AI训练。为此，AMD、博通（Broadcom）、英特尔（Intel）、微软（Microsoft）和英伟达（NVIDIA）正与该公司合作开发一种名为多路径可靠连接（MRC）的新协议，旨在提升大型训练集群中GPU网络的性能和弹性。

“我们与AMD、博通（Broadcom）、英特尔（Intel）、微软（Microsoft）和英伟达（NVIDIA）合作，发布多路径可靠连接（MRC），这是一种新的开放网络协议，能够帮助大型AI训练集群运行得更快、更可靠，从而减少GPU的闲置时间。” — OpenAI（@OpenAI）2026年5月6日

OpenAI已于今天通过开放计算项目（OCP）发布了MRC，以促进该协议在AI公司中的更广泛应用。推动MRC需求的问题在于训练大型AI模型时的数据传输。即使单个传输延迟，也可能中断整个流程，导致GPU闲置。这种延迟的主要来源是网络拥塞、链路和设备故障。集群规模越大，这一问题就越常见。

MRC是下一代大型AI超级计算机平台的基础性方法。OpenAI表示，过去两年间，他们与AMD、博通（Broadcom）、英特尔（Intel）、微软（Microsoft）和英伟达（NVIDIA）合作开发了该协议，它已内置到最新的800 Gb/s网络接口中，使AI公司能够将单个传输分散到数百条不间断路径上，在微秒级内绕过故障，并运行更简单的网络控制平面。

我们不再将每个网络接口视为一条800 Gb/s链路，而是将其拆分为多条更小的链路。例如，一个接口可以连接八个不同的交换机。然后你可以构建八个独立的并行网络（即八条平面），每条以100 Gb/s运行，而不是一个单一的800 Gb/s网络。

这一改变对集群的形态产生了巨大影响。一台原本可连接64个800 Gb/s端口的交换机，现在可以连接512个100 Gb/s端口。这样，只需两层交换机就能构建一个完全连接约131,000个GPU的网络。传统的800 Gb/s网络则需要三到四层。

MRC标准将扩展现有的基于融合以太网的远程直接内存访问（RDMA over RoCE）。这为GPU和CPU实现了硬件加速的远程直接内存访问。OpenAI已在其搭载英伟达GB200“Blackwell”图形处理器（NVIDIA GB200 “Blackwell” GPUs）的超级计算机中部署了MRC，这些计算机用于训练Frontier模型（Frontier models）。这些计算机包括位于得克萨斯州阿比林的甲骨文云基础设施（Oracle Cloud Infrastructure，OCI）以及微软的Fairwater超级计算机（Microsoft's Fairwater）。

目前，MRC已被用于在英伟达（NVIDIA）和博通（Broadcom）的硬件上训练多个OpenAI模型。RCP协议（RCP）将成为OpenAI星门超级计算机（OpenAI's Stargate supercomputer）的基础，该计算机由甲骨文云基础设施（Oracle Cloud Infrastructure）在得克萨斯州阿比林建造。该超级计算机计划到2029年部署10千兆瓦（GW）的AI算力，并在过去3个月内已经部署了超过3千兆瓦（GW）。随着RCP的发布并向整个AI行业开放，它将为跨行业合作解决AI领域最棘手的问题铺平道路，并进一步推动该领域的发展。

搜索结果如下

阅读全文

OpenAI集结AMD英伟达五巨头，共推MRC协议加速大规模AI训练

也可以看看

三星市值突破万亿美元，传统DRAM悄然赶超HBM成利润新引擎

阅读全文

《13小时》登新平台，卡拉辛斯基动作片佳作值得重温

阅读全文

用AI为Windows编写AutoHotkey脚本，几分钟解决系统烦恼

阅读全文