微软部署全球首个超级计算级GB300 NVL72 Azure集群，集成英伟达Blackwell芯片

微软刚刚为其Azure云平台升级配备了英伟达（Nvidia）的Blackwell Ultra芯片，部署了其称之为全球首个大规模GB300 NVL72超级计算集群。该集群包含多个机架，精确搭载了4,608个GB300 GPU，通过NVLink 5交换架构连接，并经由英伟达Quantum-X800 InfiniBand网络架构实现整个集群的互联。这使得单个NVL72机架总内存带宽达到130 TB/s，每个机架为每块GPU提供800 Gb/s的互联带宽。

Cover Image

英伟达指定的4,608这个数字意味着这里部署了64套GB300 NVL72系统——考虑到每个机架包含72个Blackwell GPU和36个Grace CPU（总计2,592个Arm核心）。虽然从技术上讲这尚未达到全面超大规模扩展的水平，但仍是英伟达Grace Blackwell GB300的一个重要里程碑，该平台最近在推理性能方面创造了新的基准测试记录。微软表示该集群将专用于OpenAI的工作负载，使高级推理模型运行得更快，并能将模型训练时间从“数月缩短至数周”。

在机架层面，每个NVL72系统据称可提供1,440 FP4 Tensor petaflops的性能，由37 TB的统一“快速内存”驱动，其中包含20 TB HBM3E用于GPU，17 TB LPDDR5X用于Grace CPU。如前所述，这些内存通过NVLink 5汇集在一起，使每个机架作为一个统一加速器工作，能够提供130 TB/s的直接带宽。内存吞吐量是GB300 NVL72最令人印象深刻的部分之一。

Quantum-X800 InfiniBand平台使4,608个内部互联的GPU中的每一个在机架到机架级别都拥有800 Gb/s的带宽。最终，每个GPU，无论是在机架内部还是跨机架之间，都实现了互联。

GB300 NVL72集群采用液冷技术，使用独立的热交换器和设施循环，旨在高强度工作负载下最大限度地减少用水量。英伟达称微软为此部署重新设想了其数据中心的每一层，而微软则欣然指出，这仅是未来众多集群中的第一个，这些集群将在全球范围内部署GB300，充分发挥其超大规模潜力。OpenAI和微软已经使用GB200集群来训练模型，因此这被视为他们独家合作伙伴关系的自然延伸。

英伟达本身对OpenAI进行了大量投资，双方最近签署了一份意向书，达成一项重大战略合作伙伴关系，该芯片制造商将逐步向OpenAI投入1,000亿美元。另一方面，OpenAI将使用英伟达GPU构建其下一代AI基础设施，从明年推出的Vera Rubin开始，部署价值至少10吉瓦（GW）的加速器。因此，这个GB300 NVL72超级集群可以被视为一个先导，几乎实质化了那笔投资，因为微软正是使用英伟达硬件为OpenAI部署该集群的。

搜索结果如下

阅读全文

微软部署全球首个超级计算级GB300 NVL72 Azure集群，集成英伟达Blackwell芯片

也可以看看

《嗜血法医》复活季获续订，派拉蒙确认制作第二季

阅读全文

《战地6》发售故障，官方补偿豪华战斗通行证

阅读全文

CCleaner 7全新发布，界面焕新，智能清理功能升级

阅读全文