在2025年Hot Chips大会上,英伟达机械工程师约翰·诺顿以“案例研究:NVIDIA GB200/300”为题,深入解析了其Blackwell机架与托盘设计。演讲首先介绍了去年贡献给开放计算项目(OCP)的MGX架构,随后探讨了开发GB200GB300平台面临的技术挑战。

Cover Image

MGX架构是英伟达为应对全球加速器扩展挑战而开发的模块化方案。该架构将系统分解为可互操作的构建模块,通过标准化接口允许客户根据需求灵活配置管理模块、网卡及CPU/GPU组合。这一开放标准使客户能在供应链层面实现定制化部署。

架构核心包含MGX机架基础设施计算/交换托盘两大组件。英伟达采用开放标准设计,所有3D模型和技术规范均已公开在OCP平台供下载。

GB200/GB300平台采用创新机架设计:顶部为交换机组,其下是机架电源(将数据中心高压交流电转换为直流电),底部排列10个计算托盘(含300颗芯片)和9个交换托盘。每个计算托盘可提供80 FP4 Petaflops算力,通过NVLink脊柱互联后,整套系统算力达1.4 Exaflops,整机功耗约120千瓦(单计算托盘约7千瓦)。

技术突破包括:将设备部署间距从传统44.5毫米压缩至48毫米,实现更高密度部署;开发支持1400安培电流的加强型母线槽(标准规格的4倍);通过扩展框架将机架深度从1068毫米增至1200毫米

计算托盘采用双Grace CPU+四Blackwell GPU配置,每个主机处理器模块(HPM)支持1颗Grace CPU和2颗Blackwell GPU。前端冷却区支持多风扇配置,模块化设计允许客户自定义管理模块、网卡及存储方案。后端采用OCP标准的通用快速断开(UQD)接口,全线产品均采用100%液冷方案。

目前GB200GB300已进入全面量产阶段,正在全球多个超大规模数据中心部署。英伟达承诺将保持年度技术迭代节奏,持续提升密度、功耗和冷却效率,同时NVLink Fusion等开放互联技术将进一步推动性能扩展。


文章标签: #英伟达 #Blackwell #MGX架构 #液冷技术 #算力突破

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。