华为海思昇腾910C处理器是昇腾910的衍生版本,自2019年推出以来,主要用于人工智能训练。尽管昇腾910的性能在大规模AI模型训练中只能算是勉强够用,但在推理性能方面却表现出色。根据DeepSeek的研究人员测试,昇腾910C的推理性能能够达到英伟达H100的60%。虽然昇腾910C并非性能最强的处理器,但它在减少中国对英伟达GPU依赖方面发挥了重要作用。
DeepSeek的测试结果显示,昇腾910C在推理性能上超出了预期。通过手动优化CUNN内核,其效率还能进一步提升。DeepSeek对昇腾处理器提供了原生支持,并且其PyTorch代码库能够实现从CUDA到CUNN的无缝转换,几乎不需要额外的操作。这使得华为的硬件能够更轻松地融入人工智能的工作流程中。
尽管面临美国政府的制裁以及无法获取台积电的先进工艺技术,华为的人工智能处理器能力仍在快速提升。华为和中芯国际在2019-2020年期间已经赶上了台积电的制造水平,并成功生产出可以与英伟达A100和H100相媲美的芯片。然而,昇腾910C在人工智能训练领域仍然不是最佳选择,英伟达在这一领域仍然占据着无可撼动的领先地位。
DeepSeek的Yuchen Jin指出,长期训练的可靠性是中国处理器的一个关键短板。这一问题源于英伟达经过二十年发展所形成的深度整合的硬件和软件生态系统。虽然推理性能可以通过优化得到提升,但要实现持续的训练工作负载,华为的硬件和软件堆栈还需要进一步改进。
与昇腾910一样,昇腾910C也采用了chiplet封装技术,其主计算SoC拥有大约530亿个晶体管。昇腾910的原始计算芯片是由台积电使用其N7+工艺(7纳米级,采用EUV技术)制造的,而昇腾910C的计算芯片则是由中芯国际在其第二代7纳米级工艺技术(N+2)上生产的。
展望未来,随着人工智能模型逐渐向Transformer架构靠拢,英伟达软件生态系统的影响力可能会逐渐减弱。DeepSeek在硬件和软件优化方面的专业能力,有望显著降低对英伟达的依赖,为人工智能企业提供更具性价比的替代方案,尤其是在推理环节。不过,如果中国想要在全球人工智能领域占据一席之地,就必须解决训练稳定性的问题,并进一步完善人工智能计算基础设施。