Meta发布Catalina AI系统，集成NVIDIA Blackwell GB200，采用开放机架与液冷技术

Meta公开了其Catalina人工智能系统的基础架构细节，该系统基于NVIDIA的GB200 NVL72解决方案构建，并采用开放机架v3标准与液冷技术。

Cover Image

2022年，Meta主要部署的集群规模约为6000个GPU，这些集群专为传统排名和推荐模型设计，运行的工作负载通常跨128至512个GPU。随着生成式人工智能和大语言模型的兴起，一年后集群规模增长至1.6万至2.4万个GPU（增长4倍）。到去年，Meta已运行10万个GPU并持续扩容。作为Llama等模型的软件推动者，该公司预计未来几年集群规模将实现10倍增长。

Meta透露其与英伟达早期就启动了Catalina项目，虽以NVL72 GPU解决方案为基础，但实际采用NVL36x2配置。通过定制化合作，双方将MGX和NVL72参考设计开源，相关技术规范已在开放计算项目网站发布。

每个Catalina系统被定义为独立“Pod”单元，可通过复制实现规模化部署。与标准NVL72不同，Meta定制版本采用两个IT机架构成单组72 GPU扩展域。每个机架配置相同：18个计算托盘分置上下层，左右侧各部署9个NV交换机，系统间通过粗线缆束实现跨机架GPU互联，经由NV交换机形成统一计算域。

机架左右侧配备大型ALC（空气辅助液冷装置），使Meta能在全球现有数据中心部署高功率密度液冷机架。双机架设计将单机架内存从17TB提升至34TB LPDDR内存，结合GPU与CPU实现总计48TB缓存一致性内存。电源系统将480伏或277伏单相电转换为48伏直流电，通过后方汇流条为所有服务器刀片、NV交换机及网络设备供电。

机架上下层各设1个电源架，底部另增2个。Meta采用自有光纤配线面板连接机架内所有后端网络光纤，最终接入数据中心行末网络交换机。机架管理控制器Wedge 400作为前端网络交换机，协同多个IT与交换模块运作。

为支持该体系，Meta引入了多项新技术，部分已集成于英伟达NVL72 GB200 Blackwell系统。其独特创新包括：高功率开放机架（支持更强供电与CPU）、适配传统数据中心的空气辅助液冷系统、具备冷却启停与漏液监测功能的机架管理控制器，以及实现多Pod互联的解耦调度架构网络拓扑。

此次部署标志着Meta首次应用高功率版OpenRack v3机架，单机架总线功率可达94千瓦（600安）。该设计支持新建数据中心通过设施级液冷直接向机架输送冷却液。漏液管理由RMC（机架管理控制器）实时监控组件状态，其顶置设计可避免漏液侵蚀，并能联动ALC装置或设施级阀门系统切断故障源液流。

Meta为Catalina配备自研解耦调度架构，支持在单数据中心建筑或单元内连接多个Pod，并可实现跨建筑互联以构建超大规模集群。该网络专为人工智能优化，提供灵活高速的GPU间通信能力。

搜索结果如下

阅读全文

Meta发布Catalina AI系统，集成NVIDIA Blackwell GB200，采用开放机架与液冷技术

也可以看看

三星One UI 8.5新功能，支持iPhone eSIM一键转移至Galaxy

阅读全文

苹果重组健康战略，整合健身与服务部门，为Health+铺路

阅读全文

危机公关大师的困局，克里斯·莱恩与OpenAI的艰难使命

阅读全文