与AI领域的某一家或两家巨头合作已经非同小可,但OpenAI此次集结了AMD英伟达(NVIDIA)英特尔(Intel)微软(Microsoft)博通(Broadcom),共同加速大规模AI训练。

Screenshot_2026-05-01_at_12.02.44a_PM.jpeg

OpenAI最新宣布的是一项超级计算机网络合作计划,旨在加速大规模AI训练。为此,AMD博通(Broadcom)英特尔(Intel)微软(Microsoft)英伟达(NVIDIA)正与该公司合作开发一种名为多路径可靠连接(MRC)的新协议,旨在提升大型训练集群中GPU网络的性能和弹性。

“我们与AMD博通(Broadcom)英特尔(Intel)微软(Microsoft)英伟达(NVIDIA)合作,发布多路径可靠连接(MRC),这是一种新的开放网络协议,能够帮助大型AI训练集群运行得更快、更可靠,从而减少GPU的闲置时间。” — OpenAI(@OpenAI)2026年5月6日

OpenAI已于今天通过开放计算项目(OCP)发布了MRC,以促进该协议在AI公司中的更广泛应用。推动MRC需求的问题在于训练大型AI模型时的数据传输。即使单个传输延迟,也可能中断整个流程,导致GPU闲置。这种延迟的主要来源是网络拥塞、链路和设备故障。集群规模越大,这一问题就越常见。

MRC是下一代大型AI超级计算机平台的基础性方法。OpenAI表示,过去两年间,他们与AMD博通(Broadcom)英特尔(Intel)微软(Microsoft)英伟达(NVIDIA)合作开发了该协议,它已内置到最新的800 Gb/s网络接口中,使AI公司能够将单个传输分散到数百条不间断路径上,在微秒级内绕过故障,并运行更简单的网络控制平面。

我们不再将每个网络接口视为一条800 Gb/s链路,而是将其拆分为多条更小的链路。例如,一个接口可以连接八个不同的交换机。然后你可以构建八个独立的并行网络(即八条平面),每条以100 Gb/s运行,而不是一个单一的800 Gb/s网络。

这一改变对集群的形态产生了巨大影响。一台原本可连接64800 Gb/s端口的交换机,现在可以连接512100 Gb/s端口。这样,只需层交换机就能构建一个完全连接约131,000个GPU的网络。传统的800 Gb/s网络则需要三到四层。

MRC标准将扩展现有的基于融合以太网的远程直接内存访问(RDMA over RoCE)。这为GPU和CPU实现了硬件加速的远程直接内存访问。OpenAI已在其搭载英伟达GB200“Blackwell”图形处理器(NVIDIA GB200 “Blackwell” GPUs)的超级计算机中部署了MRC,这些计算机用于训练Frontier模型(Frontier models)。这些计算机包括位于得克萨斯州阿比林的甲骨文云基础设施(Oracle Cloud Infrastructure,OCI)以及微软的Fairwater超级计算机(Microsoft's Fairwater)

目前,MRC已被用于在英伟达(NVIDIA)博通(Broadcom)的硬件上训练多个OpenAI模型。RCP协议(RCP)将成为OpenAI星门超级计算机(OpenAI's Stargate supercomputer)的基础,该计算机由甲骨文云基础设施(Oracle Cloud Infrastructure)在得克萨斯州阿比林建造。该超级计算机计划到2029年部署10千兆瓦(GW)的AI算力,并在过去3个月内已经部署了超过3千兆瓦(GW)。随着RCP的发布并向整个AI行业开放,它将为跨行业合作解决AI领域最棘手的问题铺平道路,并进一步推动该领域的发展。


文章标签: #AI训练 #网络协议 #OpenAI #GPU集群 #英伟达

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。