由于无法使用先进制程技术生产高端AI处理器,华为不得不采用“暴力堆料”策略——通过部署比行业竞争对手更多的处理器来实现可比的AI性能。
据半导体分析机构SemiAnalysis报道,华为为此采取了多管齐下的方案:采用双芯粒设计的昇腾(HiSilicon Ascend)910C处理器、光互连技术,以及依赖自研软件的华为AI CloudMatrix 384机架级解决方案。虽然整个系统能效比仅为英伟达GB200 NVL72的43%,但仍能为中国企业训练先进AI模型提供支持。
华为CloudMatrix 384是由384颗昇腾910C处理器组成的机架级AI系统,采用全光互连的全互联网状架构。该系统跨越16个机架,其中12个计算机架各搭载32个加速器,4个网络机架通过6,912个800G LPO光模块实现高带宽互联。与传统铜缆连接系统不同,CloudMatrix完全采用光互连技术实现机架内外通信,可提供极高的聚合通信带宽。作为企业级设备,该方案具备容错能力并支持弹性扩展。
性能方面,CloudMatrix 384可提供约300 PFLOPs的稠密BF16算力,是英伟达GB200 NVL72系统(约180 PFLOPs)的1.7倍。尽管采用HBM2E内存,其总内存带宽仍高出2.1倍,HBM容量更是达到3.6倍。得益于光互连技术,该机器的纵向扩展带宽和横向扩展带宽分别达到英伟达方案的2.1倍和5.3倍。
但这些性能优势需要付出代价:与英伟达相比,该系统每FLOP运算能效低2.3倍,每TB/s内存带宽能效低1.8倍,每TB HBM内存能效低1.1倍。不过对中国企业(包括华为)而言,这并非核心问题——因为他们本就无法获得英伟达GB200 NVL72系统。若想获得真正的AI训练高性能,他们完全愿意投资华为CloudMatrix 384。
值得注意的是,中国内地平均电价已从2022年的0.4元人民币/度(约合56美元/兆瓦时)降至2025年部分地区的0.4元人民币/度(约合56美元/兆瓦时),因此CM384用户不太可能因电力成本陷入困境。对于能源丰富但先进芯片受限的中国市场,华为的AI发展路径显然行之有效。
昇腾910C处理器采用双芯粒设计,配备8个HBM2E内存模块,其架构类似AMD Instinct MI250X和英伟达B200,但没有I/O芯片。其BF16算力达780 TFLOPS,介于MI250X(383 TFLOPS)与B200(2.25-2.5 PFLOPS)之间。
这款专为中国市场设计的处理器适用于大规模训练和推理场景,采用国际知名EDA工具开发,可使用7纳米级制程生产。据透露,虽然中芯国际(SMIC)具备生产910C计算芯粒的能力,但华为使用的大部分芯粒仍通过第三方渠道(如算能科技Sophgo)从台积电获得。预计2023-2025年间,华为将获取超过百万颗910C处理器的晶圆供应。随着中芯国际技术提升,未来华为可逐步将更多生产转向本土代工厂。
在内存配置上,昇腾910C主要通过韩国科亚电子(CoAsia Electronics)采购三星HBM2E内存。这些内存模组先由设计服务公司智原科技(Faraday)接收,再与矽品精密(SPIL)合作封装成符合美国出口管制的系统级封装(SiP),最终运往中国拆解后重新装配到华为的SiP中。
CloudMatrix 384正如其名,是由384颗昇腾910C组成的超高密度计算集群。其核心特征是完全依赖光链路进行所有机架内外通信,集成6,912个800G LPO光模块,总内部带宽超过5.5Pbps(687.5TB/s),且具备超低延迟特性。
虽然单颗910C性能远逊于英伟达最新B200 GPU,但华为通过系统级设计弥补了这一劣势。实测显示,384颗处理器协同工作时,其300 PFLOPs的BF16稠密算力比GB200 NVL72高出66%。不过整机功耗达559千瓦(是英伟达方案的3.9倍),能效比仅为对手的43%。
但正如前文所述,只要华为能保证CloudMatrix 384的稳定供货,并配套完善的软件支持,终端用户最不关心的恰恰就是系统功耗——毕竟在中国市场,获取替代方案的可获得性远比能效比更重要。