美国接管74亿半导体基金,斥拜登政府非法小金库
阅读全文

锤刻创思寰宇网
Meta公开了其Catalina人工智能系统的基础架构细节,该系统基于NVIDIA的GB200 NVL72解决方案构建,并采用开放机架v3标准与液冷技术。
2022年,Meta主要部署的集群规模约为6000个GPU,这些集群专为传统排名和推荐模型设计,运行的工作负载通常跨128至512个GPU。随着生成式人工智能和大语言模型的兴起,一年后集群规模增长至1.6万至2.4万个GPU(增长4倍)。到去年,Meta已运行10万个GPU并持续扩容。作为Llama等模型的软件推动者,该公司预计未来几年集群规模将实现10倍增长。
Meta透露其与英伟达早期就启动了Catalina项目,虽以NVL72 GPU解决方案为基础,但实际采用NVL36x2配置。通过定制化合作,双方将MGX和NVL72参考设计开源,相关技术规范已在开放计算项目网站发布。
每个Catalina系统被定义为独立“Pod”单元,可通过复制实现规模化部署。与标准NVL72不同,Meta定制版本采用两个IT机架构成单组72 GPU扩展域。每个机架配置相同:18个计算托盘分置上下层,左右侧各部署9个NV交换机,系统间通过粗线缆束实现跨机架GPU互联,经由NV交换机形成统一计算域。
机架左右侧配备大型ALC(空气辅助液冷装置),使Meta能在全球现有数据中心部署高功率密度液冷机架。双机架设计将单机架内存从17TB提升至34TB LPDDR内存,结合GPU与CPU实现总计48TB缓存一致性内存。电源系统将480伏或277伏单相电转换为48伏直流电,通过后方汇流条为所有服务器刀片、NV交换机及网络设备供电。
机架上下层各设1个电源架,底部另增2个。Meta采用自有光纤配线面板连接机架内所有后端网络光纤,最终接入数据中心行末网络交换机。机架管理控制器Wedge 400作为前端网络交换机,协同多个IT与交换模块运作。
为支持该体系,Meta引入了多项新技术,部分已集成于英伟达NVL72 GB200 Blackwell系统。其独特创新包括:高功率开放机架(支持更强供电与CPU)、适配传统数据中心的空气辅助液冷系统、具备冷却启停与漏液监测功能的机架管理控制器,以及实现多Pod互联的解耦调度架构网络拓扑。
此次部署标志着Meta首次应用高功率版OpenRack v3机架,单机架总线功率可达94千瓦(600安)。该设计支持新建数据中心通过设施级液冷直接向机架输送冷却液。漏液管理由RMC(机架管理控制器)实时监控组件状态,其顶置设计可避免漏液侵蚀,并能联动ALC装置或设施级阀门系统切断故障源液流。
Meta为Catalina配备自研解耦调度架构,支持在单数据中心建筑或单元内连接多个Pod,并可实现跨建筑互联以构建超大规模集群。该网络专为人工智能优化,提供灵活高速的GPU间通信能力。