华为云矩阵(CloudMatrix)AI集群采用相对简洁的技术路径挑战英伟达(Nvidia),研究人员与外部合作伙伴宣称该方案已经取得成效,至少在特定场景下得到验证。最新技术白皮书显示,由昇腾(Ascend)910C芯片构建的集群在运行深度求索(DeepSeek)R1大语言模型时,性能已超越英伟达H800芯片

Cover Image

这份由华为与中国AI初创公司硅流(SiliconFlow)联合发布的技术论文指出,华为云矩阵384集群在运行深度求索模型时表现优于英伟达方案。测试数据显示,该集群的软硬件系统在运行包含6710亿参数的深度求索R1模型时,不仅超越了专为中国市场定制的英伟达H800芯片(H100的出口版本),甚至优于标准版H100芯片本身

受制于尖端芯片制造禁令的华为,选择通过云矩阵384这种“强力堆料”方案实现突破。这个机架级系统集成了384颗双芯粒设计的海思昇腾910C NPU与192颗CPU,分布在16个服务器机柜中,所有服务器内外部通信均采用光连接技术,实现了惊人的高速互联性能。

论文强调华为研发CM384的目标在于“重塑AI基础设施根基”。华为科学家透露,发布该论文旨在“增强国内技术生态对国产NPU超越英伟达GPU的信心”。从理论性能看,云矩阵384集群的原始算力确实超过英伟达GB200 NVL72系统——其BF16计算性能达到300千万亿次,而NVL72系统为180千万亿次。华为集群还配备了专门优化的大语言模型软件方案CloudMatrix-Infer,论文称其预填充提示词速度达每TFLOPS每秒生成4.45个token,响应输出速度为每TFLOPS每秒1.29个token,效率据称超越英伟达SGLang框架

当然,云矩阵384并非全面领先,其最大短板在于能耗效率。该集群功耗达到英伟达GB200 NVL72系统的四倍(559千瓦对比145千瓦)。通过堆叠更多芯片获得的算力优势,是以约2.3倍的效率损失为代价的。

不过对于被禁止采购英伟达AI集群的中国客户而言,这种对比的参考价值有限。更何况中国大陆地区电力供应充足,过去三年电价已下降近40%。正如英伟达CEO黄仁勋(Jensen Huang)本月初在法国VivaTech科技大会上所言:“虽然我们的技术领先华为一代(华为内部也承认这点),但AI本质是并行计算问题——当单机性能不足时,增加机器数量即可解决。”

尽管需要占据16个机柜且能耗惊人,凭借其极速互联架构和扎实的软件栈,云矩阵仍为中国追求极致大模型性能的客户提供了颇具吸引力的选择。


文章标签: #华为 #AI集群 #昇腾芯片 #大模型 #英伟达

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。