《嗜血法医》复活季获续订,派拉蒙确认制作第二季
阅读全文

锤刻创思寰宇网
微软刚刚为其Azure云平台升级配备了英伟达(Nvidia)的Blackwell Ultra芯片,部署了其称之为全球首个大规模GB300 NVL72超级计算集群。该集群包含多个机架,精确搭载了4,608个GB300 GPU,通过NVLink 5交换架构连接,并经由英伟达Quantum-X800 InfiniBand网络架构实现整个集群的互联。这使得单个NVL72机架总内存带宽达到130 TB/s,每个机架为每块GPU提供800 Gb/s的互联带宽。
英伟达指定的4,608这个数字意味着这里部署了64套GB300 NVL72系统——考虑到每个机架包含72个Blackwell GPU和36个Grace CPU(总计2,592个Arm核心)。虽然从技术上讲这尚未达到全面超大规模扩展的水平,但仍是英伟达Grace Blackwell GB300的一个重要里程碑,该平台最近在推理性能方面创造了新的基准测试记录。微软表示该集群将专用于OpenAI的工作负载,使高级推理模型运行得更快,并能将模型训练时间从“数月缩短至数周”。
在机架层面,每个NVL72系统据称可提供1,440 FP4 Tensor petaflops的性能,由37 TB的统一“快速内存”驱动,其中包含20 TB HBM3E用于GPU,17 TB LPDDR5X用于Grace CPU。如前所述,这些内存通过NVLink 5汇集在一起,使每个机架作为一个统一加速器工作,能够提供130 TB/s的直接带宽。内存吞吐量是GB300 NVL72最令人印象深刻的部分之一。
Quantum-X800 InfiniBand平台使4,608个内部互联的GPU中的每一个在机架到机架级别都拥有800 Gb/s的带宽。最终,每个GPU,无论是在机架内部还是跨机架之间,都实现了互联。
GB300 NVL72集群采用液冷技术,使用独立的热交换器和设施循环,旨在高强度工作负载下最大限度地减少用水量。英伟达称微软为此部署重新设想了其数据中心的每一层,而微软则欣然指出,这仅是未来众多集群中的第一个,这些集群将在全球范围内部署GB300,充分发挥其超大规模潜力。OpenAI和微软已经使用GB200集群来训练模型,因此这被视为他们独家合作伙伴关系的自然延伸。
英伟达本身对OpenAI进行了大量投资,双方最近签署了一份意向书,达成一项重大战略合作伙伴关系,该芯片制造商将逐步向OpenAI投入1,000亿美元。另一方面,OpenAI将使用英伟达GPU构建其下一代AI基础设施,从明年推出的Vera Rubin开始,部署价值至少10吉瓦(GW)的加速器。因此,这个GB300 NVL72超级集群可以被视为一个先导,几乎实质化了那笔投资,因为微软正是使用英伟达硬件为OpenAI部署该集群的。