微软已宣布其首个大规模生产级集群,搭载英伟达GB300 “Blackwell Ultra” GPU,专为超大规模AI模型设计。

Cover Image

英伟达GB300 “Blackwell Ultra”微软最新的Azure平台中,能够处理参数规模达数百万亿的AI模型。微软Azure已完成Blackwell Ultra升级。这一最新的大规模生产集群整合了超过4,600个基于英伟达GB300 NVL72架构的GPU,全部通过下一代InfiniBand互连结构连接。此次部署为微软在全球各地数据中心规模化部署数十万个Blackwell Ultra GPU铺平了道路,所有这些算力都将专注于一项工作负载:AI

全球首个用于AI工作负载的大规模@英伟达 GB300 NVL72超级计算集群现已在微软Azure上线。该部署使用下一代InfiniBand网络连接了超过4,600英伟达Blackwell Ultra GPU——旨在比以往更快地训练和部署先进的AI模型。

微软称,配备英伟达GB300 NVL72 “Blackwell Ultra” GPU的Azure集群能够将训练时间从数月缩短至数周,并为训练参数规模超过百万亿的模型开辟了道路。英伟达在其强大的推理性能方面也处于领先地位,这一点已在MLPerf基准测试以及最近的InferenceMAX AI测试中无数次得到证实。

新的微软Azure ND GB300 v6虚拟机针对推理模型、代理AI系统和多模态生成式AI工作负载进行了优化。每个机架总共包含18台虚拟机,每台虚拟机配备72个GPU。以下是主要规格亮点:

  • 72英伟达Blackwell Ultra GPU(配备36英伟达Grace CPU)。

  • 通过下一代英伟达Quantum-X800 InfiniBand,每个GPU的跨机架横向扩展带宽达到每秒800吉比特(2x GB200 NVL72)。

  • 单个机架内的英伟达NVLink带宽达到每秒130太字节。

  • 37太字节的高速内存。

  • 高达每秒1,440千万亿次浮点运算的FP4 Tensor Core性能。

在机架层面,NVLinkNVSwitch减少了内存和带宽限制,实现了每秒高达130太字节的机架内数据传输,连接总计37太字节的高速内存。每个机架成为一个紧密耦合的单元,在更大的模型和更长的上下文窗口上,以更低的延迟提供更高的推理吞吐量,使代理和多模态AI系统比以往更具响应性和可扩展性。

为了突破单机架的限制,Azure部署了采用英伟达Quantum-X800 吉比特/秒InfiniBand的全胖树无阻塞架构,这是当今可用的最快网络结构。这确保了客户能够高效地将超大型模型的训练扩展到数万个GPU,同时将通信开销降至最低,从而提供更好的端到端训练吞吐量。同步开销的减少也转化为GPU的最大化利用率,这有助于研究人员在AI训练工作负载对计算需求巨大的情况下,以更低的成本更快地进行迭代。Azure协同设计的软件栈,包括定制协议、集合库和网络内计算,确保了网络的高度可靠性并能被应用程序充分利用。诸如英伟达SHARP等功能通过在交换机中执行数学运算来加速集合操作,并将有效带宽翻倍,使得大规模训练和推理更加高效可靠。

Azure的先进冷却系统使用独立的热交换器单元和设施冷却,以最大限度地减少用水量,同时为像GB300 NVL72这样的高密度、高性能集群保持热稳定性。我们还持续开发和部署新的配电模型,能够支持ND GB300 v6虚拟机级别的GPU集群所需的高能量密度和动态负载平衡。

英伟达表示,与微软Azure的合作标志着美国在引领AI竞赛中的一个领导性时刻。最新的Azure虚拟机现已部署完毕,可供客户使用。


文章标签: #微软Azure #英伟达GPU #AI集群 #Blackwell #InfiniBand

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。