近日,英伟达(Nvidia)宣布已启动其面向人工智能数据中心的新平台“维拉·鲁宾”(Vera Rubin)的“全面生产”,并向合作伙伴保证,该平台将按计划于今年晚些时候推出,领先于AMD等竞争对手。然而,除了可能提前发布之外,据报道,英伟达还在调整鲁宾(Rubin)GPU的规格以提供更高的性能:有报道称,其热设计功耗(TDP)将提升至每GPU 2.30千瓦,内存带宽将达到22.2 TB/s。

根据Keybanc(经由@Jukan05)的消息,鲁宾GPU的额定功耗现已锁定在2.3千瓦,高于英伟达最初公布的1.8千瓦,但低于部分市场观察人士预期的2.5千瓦。将额定功耗从1.8千瓦提升的意图,源于确保今年基于鲁宾的平台性能显著快于AMD的Instinct MI455X的愿望,后者预计功耗约为1.7千瓦。关于鲁宾功耗预算增加的信息来自非官方渠道,但得到了SemiAnalysis的间接证实,该机构声称英伟达已提高了HBM4堆栈的数据传输速率,现在每个鲁宾GPU的内存带宽高达22.2 TB/s,高于之前的13 TB/s。我们已联系英伟达,试图核实这些说法。
额外增加的约500瓦功耗余量为英伟达提供了多种提升实际性能(而不仅仅是纸面规格)的选择。最直接的是,它能够在持续的训练和推理负载下实现更高的持续时钟频率,并在人工智能加速器满负荷运行时减少降频。额外的功耗也使得同时运行更多执行单元变得更容易,从而在计算、内存和互连同时承受负载的重度工作场景中提升吞吐量。
除了流处理器(或更确切地说是张量单元)之外,额外的功耗预算还可用于以更高的时钟频率运行HBM4内存和物理层接口,以提高内存带宽。事实上,更高的功耗预算还能让英伟达将所有链路(包括内存、内部互连和NVLink)的性能提升至更激进的运行点,同时保持良好的信号裕量,这在现代人工智能系统日益受到内存带宽和互连结构性能限制的情况下变得越来越重要。
在系统层面,人工智能加速器额外增加的500瓦热设计功耗转化为更高的单节点和单机架性能。超大规模数据中心运营商更看重系统级性能,而非单纯的单GPU性能,因为完成相同任务可能需要更少的GPU,这降低了网络负载并提高了集群级效率。当然,这前提是这些运营商能够为功耗显著更高的机器提供足够的电力。
最后但同样重要的是,更高的热设计功耗也有助于制造环节,因为它允许更灵活的分档和电压余量,从而在不削减执行单元数量或降低时钟频率的情况下提高可用良率。
因此,这额外的500瓦不仅有助于提升鲁宾GPU的性能以及VR200 NVL144机架级解决方案的竞争地位,还充当了可靠性余量,确保GPU能够在大规模数据中心部署中提供可预测的、持续的吞吐量,而不仅仅是提供更高的纸面峰值数据。作为额外的好处,英伟达有可能向市场供应更多的鲁宾GPU,这对其盈利是有利的。



