据路透社报道,华为新一代昇腾(Ascend)910D人工智能处理器性能有望超越英伟达(Nvidia)H100。虽然单芯片性能逊于英伟达即将发布的Blackwell B200和Blackwell Ultra B300 GPU(更不用说计划明年推出的下一代Rubin GPU),但华为采用数百颗处理器构建计算集群的方案,将使昇腾910D具备与基于英伟达Blackwell及未来Rubin GPU集群竞争的实力。

Cover Image

华为正着手测试其最先进的人工智能处理器昇腾910D,目标性能超越英伟达H100,在美国出口管制下提供国产替代方案。消息人士透露,华为已联系多家本土企业评估该芯片是否满足性能与部署要求,首批样品预计五月底交付。

另据消息,华为计划最早于下月开始向中国客户大批量交付双芯片封装的昇腾910C处理器(可能包含完整系统方案)。据悉该批芯片主要由台积电(TSMC)为第三方企业代工。尚不确定昇腾910D会否由中芯国际(SMIC)制造——在美国政府限制华为获取先进制程技术近五年后,这家中国企业能否再次突破封锁仍是悬念。

对华为而言,达到英伟达H100性能水平并非易事。当前双芯片设计的昇腾910C提供约780 BF16 TFLOPS算力,而英伟达H100可达2000 BF16 TFLOPS。要实现对标目标,华为必须重构昇腾910D内部架构,并可能增加计算芯片数量。

为保持明年在AI领域的竞争力,华为必须实现与美国AI集群相当的性能表现。今年推出的云矩阵(CloudMatrix)384系统搭载384颗昇腾910C,据称在某些工作负载中可击败英伟达GB200 NVL72,但以显著更高的功耗为代价——其能效比大幅落后,且单机架AI处理器数量达NVL72的五倍以上。该互联架构能否良好扩展至所需处理器规模尚待验证。

若无法获得先进制程技术,华为明年维持竞争力将愈发困难。英伟达按计划将于2026年推出代号Rubin的AI/HPC专用GPU,采用台积电N3(或更先进)工艺,能效比将超越当前Blackwell架构。Rubin GPU预计提供约8300 FP8 TFLOPS训练性能(BF16模式下约4150 TFLOPS),约为B200的两倍。理论上,搭载384颗昇腾910D的新一代云矩阵系统可在机架层面提供有竞争力的AI性能,但具体提升幅度仍需实测验证。值得注意的是,英伟达高性能Rubin GPU几乎无法进入中国市场,华为在该领域将难逢直接竞争对手。

无论性能或能效如何,昇腾910D很可能成为未来数年中国AI训练的主力芯片。鉴于AI的战略意义,功耗不会成为制约因素——部署规模可抵消英伟达(或AMD、英特尔、博通等)AI芯片的效率优势。中国面临的核心挑战在于生产能力:无论通过本土制造还是海外代工渠道,能否产出足够数量的处理器将决定发展上限。


文章标签: #华为 #昇腾 #英伟达 #AI芯片 #国产替代

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。