华为最新的AI芯片昇腾950PR,对于国内超大规模云服务商而言,其计算性能或许无法与英伟达(NVIDIA)的芯片相抗衡,但它通过引入CUDA兼容性,实现了一次重大升级。

中国计算产业一直在试图挑战英伟达的市场主导地位,虽然重点一直放在架构和片上功能的升级上,但收效甚微。有报道称,中国的超大规模云服务商仍然强烈倾向于使用英伟达的硬件,一个关键原因不仅仅是计算性能差距,CUDA也扮演了重要角色。华为曾试图通过其原生CANN软件栈来“破解”CUDA,但尚未成功。这就是为什么昇腾950PR的目标,是成为训练/推理工作负载中英伟达的直接替代品。
这一次,科技公司打算更广泛地使用新的950PR,知情人士表示,由于该芯片与英伟达的CUDA软件系统兼容性更好,响应速度也更快,他们对此感到非常满意。
我们稍后会深入探讨昇腾950PR芯片带来的具体特性,但先来谈谈CUDA兼容性以及华为通过此次发布取得的主要成就。华为的CANN Next软件栈经历了一次重大升级,增加了一个SIMT编程模型,具备线程块、线程束和内核启动等功能,类似于CUDA。CANN Next的理念不是为开发者提供一个翻译层,而是引入近乎可以直接替换的CUDA等效功能,将CUDA视为一种语言标准,同时利用昇腾生态系统的优势。
CANN Next针对大规模昇腾计算进行了优化,这意味着线程数和块大小等参数是针对华为自家芯片进行调优的,实现了协同设计的可扩展性。通俗地理解华为的实际做法,它并非要取代CUDA,而是让开发者感觉像是在用CUDA编程,但实际上,通过GPU编程实现的性能是经过昇腾优化且可扩展的。CANN Next是昇腾950PR被视为比以往产品更具吸引力的解决方案的原因之一。
现在,特别是关于昇腾950PR芯片,据报道,像字节跳动和阿里巴巴这样的超大规模云服务商计划很快下单订购,该公司今年将生产75万颗芯片。在技术规格方面,该芯片支持低精度数据格式,最高至FP8,提供1 PFLOPS的FP8计算能力和2 PFLOPS的FP4计算能力。该芯片将配备2 TB/s的互连带宽,并采用该公司首个名为HiBL 1.0的“自建HBM”,其容量为128GB,带宽为1.6 TB/s。这项HBM技术也确保了华为在提升产量时不会面临限制。
中国一直需要英伟达计算产品的替代品,特别是对于超大规模云服务商而言。获取像H200这样的芯片所涉及的监管负担一直是个“痛点”,这就是为什么他们不得不采取诸如租用海外计算资源或转向国内选项的方案。华为凭借CANN Next和昇腾950PR,正寻求提升其在中国AI行业的影响力,但目前制约其发展的唯一因素是芯片产量以及客户是否准备好进行大规模部署。



