根据摩根士丹利(Morgan Stanley)最新报告披露,英伟达(Nvidia)GB300 NVL72机架级人工智能系统的液冷组件总价值达4.986万美元。报告指出,由于下一代鲁宾(Rubin)GPU与NVLink交换机功耗提升,其新一代Vera RubinNVL144解决方案的液冷系统成本将再增长17%,达到5.571万美元。

具体来看,英伟达NVL72「奥伯龙」(Oberon)机架冷却系统的物料清单成本剖析显示:包含18个计算托盘(单托盘功耗至少6.6千瓦,需处理6.2千瓦热负载)与9个交换托盘的冷却系统总价为4.986万美元。单个计算托盘冷却组件价值约2260美元,18个托盘合计4.068万美元;而NVSwitch交换托盘冷却系统单价1020美元,9个托盘总计9180美元。其中定制高性能冷板成本最为突出,CPU与GPU专用冷板单价达300美元,NVSwitch专用集成电路冷板则为200美元。
摩根士丹利预测,采用更高热设计功耗的薇拉CPU、鲁宾GPU(单卡功耗达1800瓦)及新一代NVSwitch 6.0专用集成电路的Vera Rubin NVL144平台,将使机架级冷却系统成本攀升至5.571万美元。计算托盘冷却系统成本预计增长18%至单托盘2660美元,整机架计算冷却总成本达4.788万美元。虽然托盘数量不变,但每个托盘均配备单价400美元的高容量冷板。相反,交换托盘冷却系统成本将降至单托盘870美元,整机架7830美元。
从GB200 NVL72到GB300 NVL72(冷却系统成本+20%),再到Vera Rubin NVL144(+17%)的演进轨迹,清晰展现了芯片性能提升与冷却需求正相关的行业趋势。值得关注的是,英伟达计划从Rubin Ultra GPU开始采用4个计算芯片与16个HBM4E内存芯片的封装方案,热设计功耗将跃升至3600瓦,这势必需要开发新型冷板甚至采用浸没式/嵌入式冷却技术。目前英伟达正在研发搭载144个GPU封装的全新液冷NVL576「凯伯」(Kyber)机架方案,其性能较Vera Rubin NVL144(72个GPU封装)翻倍,但热管理压力也将倍增。适用于鲁宾Ultra GPU的特种冷板及其他冷却系统增强设计,很可能进一步推高NVL576冷却成本。虽然具体金额尚待确认,但可处理3.6千瓦热量的高性能冷板单价必然远高于当前400美元的水平。
每颗Blackwell Ultra数据中心GPU功耗1400瓦,Grace CPU功耗300瓦,SOCAMM内存每插槽功耗200瓦。单个托盘液冷系统覆盖两颗CPU与八颗GPU,内存则配备散热均温板。



