尽管英伟达(Nvidia)的AI GPU和机架级解决方案仍然是市场上最抢手的AI加速器,但美国白宫以及随后北京方面对英伟达AI处理器对华出口的限制,正对该公司在中国的业务产生剧烈影响。据《日经亚洲》援引伯恩斯坦(Bernstein)的分析报道,随着国内供应商能够满足约80%的本地需求,英伟达在中国的市场份额在未来几年可能降至仅8%。

摩尔线程(Moore Threads)首席执行官张建中在公司发布首款专为AI工作负载加速设计的GPU——代号“华山”的产品时表示:“新产品满足了国内开发者的需求,不再需要等待海外的先进产品。”
据中国媒体援引的伯恩斯坦分析师预计,随着华为、寒武纪(Cambricon)等本土独立硬件供应商(IHVs)合计市场份额接近80%,英伟达在中国AI处理器市场的份额将从2024年的66%降至今年的大约8%。中国硬件加速器的崛起是多种因素共同作用的结果,包括对英伟达硬件的限制、华为、寒武纪、摩尔线程、沐曦集成电路(MetaX) 等公司硬件的进步,以及其软件栈的显著改进。
摩尔线程的“华山”产品可以与英伟达的Hopper H100和H200产品竞争,后者是该公司上一代AI加速器,美国近期已允许其出口至中国,但附带了一些严格的限制条件。然而,“华山”的性能远低于英伟达现有的Blackwell B200和B300 GPU,后者被禁止出口至中国。与此同时,华为的AI云矩阵384在用于AI训练的常用格式BF16 FLOPS上,可以击败GB200 NVL72和GB300 NVL72系统,尽管其功耗高出四倍。该公司基于524,288个昇腾950DT AI加速器的下一代Atlas 950超级集群,预计将在2026年至2027年的某个时候,为AI训练提供高达524 FP8 ExaFLOPS的性能,为AI推理(更具体地说是MXFP4格式)提供高达1 FP4 ZettaFLOPS的性能,并计划在2028年底达到4 ZettaFLOPS。这虽然仍落后于基于Blackwell的领先集群,例如甲骨文(Oracle) 运行131,072个B200 GPU、为推理提供高达2.4 FP4 ZettaFLOPS峰值性能的OCI超级集群,但显而易见的是,中国开发者正在快速提升其AI硬件的性能。
鉴于这些进展,剩下的障碍是完成从一个长期以英伟达为中心的生态系统,向完全自主的硬件和软件栈的过渡。这可能并不容易实现,因为许多现有的AI部署都使用英伟达的硬件和CUDA软件栈,将其移植到中国硬件和软件上既困难又昂贵。
然而,转向国产AI硬件(以及广义上的国产硬件)是中国的长期国家目标。据报道,中国共产党在10月流传的一份五年规划草案呼吁,在指导国家机关、私营公司和金融机构的“新型举国体制”下实现半导体自主。这项努力的核心是所谓的中国GPU“四小龙”:摩尔线程、沐曦集成电路、壁仞科技(Biren Technology) 和燧原科技(Enflame)。
大型超大规模企业也在加强其定制芯片计划。百度的昆仑芯部门计划到2030年推出五款AI处理器,阿里巴巴也没有放弃自己的芯片研发努力。然而,在很大程度上,中国的AI产业受到中芯国际(SMIC) 使用其7纳米级工艺技术大规模生产芯片能力的限制。如果该公司在未来几年无法大幅提高产量,那么中国的AI领域要么会大幅落后于美国,要么就得设法从英伟达获得高性能GPU以保持竞争力。


