纽约将开老友记主题咖啡店,粉丝却对设计失望
阅读全文

锤刻创思寰宇网
在周四举行的华为连接2025大会(Huawei Connect 2025)上,华为发布了其下一代数据中心级人工智能解决方案。全新的SuperCluster 950系统搭载了数十万个昇腾950DT(Ascend 950DT)神经网络处理器(NPU),其人工智能推理性能高达1 FP4 ZettaFLOPS,人工智能训练性能达524 FP8 ExaFLOPS,有望成为全球最强大的人工智能超级计算机之一。华为预计其SuperCluster将在2026年底与英伟达(Nvidia)基于Rubin架构的系统展开竞争。
性能规模
华为的Atlas 950 SuperCluster将由64个Atlas 950 SuperPoD组成,这是该公司的机架级人工智能解决方案,类似于英伟达的GB300 NVL72或下一代Vera Rubin NVL144。Atlas 950 SuperCluster将基于分布在超过10,240个光互联机柜中的524,288个昇腾950DT人工智能加速器构建而成。
据称,该超级计算机可提供高达524 FP8 ExaFLOPS的人工智能训练性能和高达1 FP4 ZettaFLOPS的人工智能推理性能(更具体地说是MXFP4),这使其性能仅次于最前沿的人工智能超级计算机,例如甲骨文(Oracle)去年推出的运行131,072个B200 GPU、推理峰值性能高达2.4 FP4 ZettaFLOPS的OCI Supercluster。需要注意的是,这些数据均属于峰值性能指标,其在实际应用中能否实现尚待观察。
该SuperCluster设计支持RoCE(基于融合以太网的远程直接内存访问)和华为专有的UBoE(基于以太网的统一总线)协议,不过后者将被采纳得多快还有待观察。据华为称,与传统的RoCE设置相比,UBoE具有更低的空闲状态延迟、更高的硬件可靠性,并且需要更少的交换机和光模块。
华为将其Atlas 950 SuperCluster定位为支持参数规模达数千亿至数万亿的人工智能模型的训练和推理工作负载。华为认为,凭借其计算吞吐量、互连带宽和系统稳定性的结合,该平台非常适合下一波大规模稠密和稀疏模型。不过考虑到其规模,目前尚不清楚有多少公司能够容纳这套系统。
华为承认,其无法制造出在性能上挑战英伟达 GPU的处理器。因此,为了通过Atlas 950 SuperCluster实现1 ZettaFLOPS的性能,它打算采用一种“蛮力”方法,即使用数十万个人工智能加速器,在2026至2027年与基于英伟达Rubin架构的集群竞争。
华为Atlas 950 SuperCluster的一个常见构建模块是Atlas 950 SuperPoD,它集成了8,192个昇腾950DT芯片,其处理单元数量相比Atlas 900 A3 SuperPoD(也称为CloudMatrix 384)增加了20倍,计算性能也实现了巨大提升——达到8 FP8 ExaFLOPS和16 FP4 ExaFLOPS。
Atlas 950 SuperCluster在纸面上的性能确实令人印象深刻;据称其性能远高于英伟达的Vera Rubin NVL144(1.2 FP8 ExaFLOPS,3.6 NVFP4 ExaFLOPS),这也是华为将其与之对比的产品。然而,这种性能是以尺寸为代价的。Atlas 950 SuperCluster设置共包含160个机柜——其中128个用于计算,32个用于通信——分布在1,000平方米的空间内,大约相当于两个篮球场的大小。相比之下,英伟达的Vera Rubin NVL144是一个机架级解决方案,由一个计算机架和一个电缆及交换机机架组成,仅需几平方米的空间。
至于由64个Atlas 950 SuperPoD组成、占地面积应约为64,000平方米的华为Atlas 950 SuperCluster,其规模相当于150个篮球场或9个标准足球场。不过请注意,一个实际的园区可能还需要额外的空间用于电力室、冷却器/冷却塔、电池/UPS系统和支持办公室,因此总占地面积可能会显著大于64,000平方米。
销售服务器硬件的一个特点是客户总是想知道下一步是什么,因此除了拥有好的产品之外,拥有路线图也至关重要。于是在华为连接大会上,该公司披露了计划在2027年第四季度推出Atlas 960 SuperCluster以及Atlas 960 SuperPoD。
该下一代系统将扩展至超过100万个昇腾960 NPU,并将提供2 FP8 ZettaFLOPS和4 MXFP4 ZettaFLOPS的性能。它还将同时支持UBoE和RoCE,其中前者预计将在继续依赖以太网的同时提供改进的延迟和正常运行时间指标。