Meta公开了其Catalina人工智能系统的基础架构细节,该系统基于NVIDIA的GB200 NVL72解决方案构建,并采用开放机架v3标准液冷技术

Cover Image

2022年Meta主要部署的集群规模约为6000个GPU,这些集群专为传统排名和推荐模型设计,运行的工作负载通常跨128至512个GPU。随着生成式人工智能和大语言模型的兴起,一年后集群规模增长至1.6万至2.4万个GPU(增长4倍)。到去年Meta已运行10万个GPU并持续扩容。作为Llama等模型的软件推动者,该公司预计未来几年集群规模将实现10倍增长

Meta透露其与英伟达早期就启动了Catalina项目,虽以NVL72 GPU解决方案为基础,但实际采用NVL36x2配置。通过定制化合作,双方将MGX和NVL72参考设计开源,相关技术规范已在开放计算项目网站发布。

每个Catalina系统被定义为独立“Pod”单元,可通过复制实现规模化部署。与标准NVL72不同,Meta定制版本采用两个IT机架构成单组72 GPU扩展域。每个机架配置相同:18个计算托盘分置上下层,左右侧各部署9个NV交换机,系统间通过粗线缆束实现跨机架GPU互联,经由NV交换机形成统一计算域。

机架左右侧配备大型ALC(空气辅助液冷装置),使Meta能在全球现有数据中心部署高功率密度液冷机架。双机架设计将单机架内存从17TB提升至34TB LPDDR内存,结合GPU与CPU实现总计48TB缓存一致性内存。电源系统将480伏277伏单相电转换为48伏直流电,通过后方汇流条为所有服务器刀片NV交换机网络设备供电。

机架上下层各设1个电源架,底部另增2个Meta采用自有光纤配线面板连接机架内所有后端网络光纤,最终接入数据中心行末网络交换机。机架管理控制器Wedge 400作为前端网络交换机,协同多个IT与交换模块运作。

为支持该体系,Meta引入了多项新技术,部分已集成于英伟达NVL72 GB200 Blackwell系统。其独特创新包括:高功率开放机架(支持更强供电与CPU)、适配传统数据中心的空气辅助液冷系统、具备冷却启停漏液监测功能的机架管理控制器,以及实现多Pod互联的解耦调度架构网络拓扑。

此次部署标志着Meta首次应用高功率版OpenRack v3机架,单机架总线功率可达94千瓦(600安)。该设计支持新建数据中心通过设施级液冷直接向机架输送冷却液。漏液管理由RMC(机架管理控制器)实时监控组件状态,其顶置设计可避免漏液侵蚀,并能联动ALC装置设施级阀门系统切断故障源液流。

MetaCatalina配备自研解耦调度架构,支持在单数据中心建筑或单元内连接多个Pod,并可实现跨建筑互联以构建超大规模集群。该网络专为人工智能优化,提供灵活高速的GPU间通信能力。


文章标签: #人工智能 #GPU集群 #液冷技术 #开放机架 #MetaAI

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。