现代云数据中心在运行过程中不仅要消耗大量电力进行计算和制冷,其采用的蒸发式液冷系统还会导致惊人的水资源消耗。相比之下,英伟达(Nvidia)推出的GB200 NVL72和GB300 NVL72服务器采用了革命性的直触式液冷方案,官方数据显示其能源效率提升25倍,节水效果更是达到传统冷却器的300倍。不过这套方案面临一个显著挑战——其单机架功耗达到普通机架的7倍以上。
目前数据中心的标准服务器机架功耗约为20千瓦,搭载H100芯片的英伟达机架功耗已超过40千瓦。而采用GB200 NVL72和GB300 NVL72架构的整机架系统功耗飙升至120-140千瓦,远超现有绝大多数数据中心机架的承载能力。
传统风冷方案已无法应对这种高密度机架的热负荷,这促使英伟达为Blackwell系列开发全新冷却方案。其核心技术在于:通过直接嵌入GPU/CPU等发热元件的冷板进行闭环液体循环,完全绕过空气介质实现高效导热。与蒸发冷却或浸没式冷却不同,NVL72的闭环设计避免了冷却液的相变损耗,从根本上杜绝了水资源浪费。
在该架构中,冷却液吸收的热量通过机架级液-液热交换器传导至数据中心冷却系统。以CoolIT CHx2000为代表的冷却液分配单元(CDU)可管理高达2兆瓦的制冷量,通过低热阻设计为高密度部署提供可靠散热保障。这套系统还支持温水冷却运行,可大幅减少甚至完全省去机械制冷装置,实现能效与节水的双重优化。
值得关注的是,虽然闭环液冷在个人电脑领域已有成熟应用,但在数据中心规模部署仍面临多重挑战:首先,数据中心要求组件具备模块化和快速维护特性,而密闭系统会阻碍服务器/GPU的热插拔更换;其次,跨机架的全密封液体回路会带来管道布局、泵冗余和故障隔离等工程难题。目前的解决方案是采用防滴漏快拆接头替代完全密封,在保证可维护性的同时控制泄漏风险。但实施数据中心级液冷仍需要进行整体基础设施改造,成本极为高昂。
鉴于Blackwell处理器无可匹敌的性能优势,B200 GPU的早期采用者仍愿意投资这种改造。英伟达已与施耐德电气(Schneider Electric)联合开发了包含1152个GPU的DGX SuperPOD GB200集群参考设计,采用Motivair液-液CDU配合绝热辅助流体冷却器,可实现系统快速部署与能效最大化。
尽管英伟达强制要求Blackwell B200 GPU系统必须采用液冷方案,但该公司通过投入密封式液冷参考设计,成功规避了蒸发式液冷方案的水资源消耗问题——这种技术路线选择在性能与环保之间取得了合理平衡。