微软刚刚为其Azure云平台升级配备了英伟达(Nvidia)Blackwell Ultra芯片,部署了其称之为全球首个大规模GB300 NVL72超级计算集群。该集群包含多个机架,精确搭载了4,608个GB300 GPU,通过NVLink 5交换架构连接,并经由英伟达Quantum-X800 InfiniBand网络架构实现整个集群的互联。这使得单个NVL72机架总内存带宽达到130 TB/s,每个机架为每块GPU提供800 Gb/s的互联带宽。

Cover Image

英伟达指定的4,608这个数字意味着这里部署了64套GB300 NVL72系统——考虑到每个机架包含72个Blackwell GPU36个Grace CPU(总计2,592个Arm核心)。虽然从技术上讲这尚未达到全面超大规模扩展的水平,但仍是英伟达Grace Blackwell GB300的一个重要里程碑,该平台最近在推理性能方面创造了新的基准测试记录。微软表示该集群将专用于OpenAI的工作负载,使高级推理模型运行得更快,并能将模型训练时间从“数月缩短至数周”。

在机架层面,每个NVL72系统据称可提供1,440 FP4 Tensor petaflops的性能,由37 TB的统一“快速内存”驱动,其中包含20 TB HBM3E用于GPU,17 TB LPDDR5X用于Grace CPU。如前所述,这些内存通过NVLink 5汇集在一起,使每个机架作为一个统一加速器工作,能够提供130 TB/s的直接带宽。内存吞吐量是GB300 NVL72最令人印象深刻的部分之一。

Quantum-X800 InfiniBand平台使4,608个内部互联的GPU中的每一个在机架到机架级别都拥有800 Gb/s的带宽。最终,每个GPU,无论是在机架内部还是跨机架之间,都实现了互联。

GB300 NVL72集群采用液冷技术,使用独立的热交换器和设施循环,旨在高强度工作负载下最大限度地减少用水量。英伟达微软为此部署重新设想了其数据中心的每一层,而微软则欣然指出,这仅是未来众多集群中的第一个,这些集群将在全球范围内部署GB300,充分发挥其超大规模潜力。OpenAI微软已经使用GB200集群来训练模型,因此这被视为他们独家合作伙伴关系的自然延伸。

英伟达本身对OpenAI进行了大量投资,双方最近签署了一份意向书,达成一项重大战略合作伙伴关系,该芯片制造商将逐步向OpenAI投入1,000亿美元。另一方面,OpenAI将使用英伟达GPU构建其下一代AI基础设施,从明年推出的Vera Rubin开始,部署价值至少10吉瓦(GW)的加速器。因此,这个GB300 NVL72超级集群可以被视为一个先导,几乎实质化了那笔投资,因为微软正是使用英伟达硬件为OpenAI部署该集群的。


文章标签: #微软 #英伟达 #OpenAI #超级计算 #AI加速

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。