英伟达(NVIDIA)的下一代Vera Rubin平台目前已进入全面生产阶段,该公司向我们全面介绍了其机架架构,并深入剖析了各个组件。

Cover Image

Vera Rubin平台采用了六款全新升级的芯片,配备了增强型液冷系统和高端NVLink 6主干网络。

谈及机架代际升级,英伟达的Vera Rubin将带来重大革新。根据CNBC近期一段深入探讨Vera Rubin架构的视频,我们得以详细审视从主计算节点到网络和冷却元件在内的众多组件。更重要的是,英伟达基础设施高级总监迪翁·哈里斯(Dion Harris)Vera Rubin为“全球最复杂的人工智能系统之一”,并强调英伟达所做的事情是独特且难以复制的。

鉴于Rubin平台预计很快将获得客户订单,深入了解NVL72机架的实际形态至关重要。当然,该机架最核心的要素之一便是Vera Rubin SuperChip超级芯片本身。我们已从技术角度探讨过Rubin GPUVera CPU的配置,但需要指出一个重要亮点:主要的性能提升源于英伟达将HBM4内存与GPU集成,并采用了专用的SOCAMM模块。总体而言,内存带宽达到了惊人的1.2 TB/s

Vera Rubin的另一项重大升级体现在冷却系统。英伟达计划采用模块化液冷设计,通过专用冷板覆盖Rubin GPUVera CPU等超级芯片组件。公司高管认为,Rubin的部署将切实推动超大规模数据中心转向升级的液冷系统。有趣的是,当前的实施方案还减少了用水量,这是英伟达宣传的又一优势。

NVLinkVera Rubin NVL72架构的重要一环。凭借第六代互连架构——常被称为“NVLink Spine”(NVLink主干)——英伟达计划为每个机架提供总计260 TB/s的聚合带宽。哈里斯表示,借助最新的NVLink世代,公司将模块化提升到了一个全新水平,因此宣称NVLink 6主干支持零停机维护和机架级RAS(可靠性、可用性、可服务性)服务。

尽管有预估表明Vera Rubin首发时价格将有显著上涨,但英伟达表示,与Blackwell GB200相比,该架构能将推理令牌成本降低10倍,并将训练MoE模型所需的GPU数量减少4倍。这意味着英伟达首席执行官所提出的“买得越多,省得越多”法则依然成立。


文章标签: #英伟达 #人工智能 #芯片技术 #数据中心 #液冷系统

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。