英特尔分拆企业Altera裁员,82个岗位将被裁撤
阅读全文

锤刻创思寰宇网
一份最新报告显示,深度求索(DeepSeek)在英伟达硬件上成功训练完R1模型后,中国相关部门敦促其下一代模型转向采用华为昇腾(Ascend)硬件平台。但据《金融时报》披露,R2的训练过程因华为硬件持续故障而受阻,导致模型发布延期。报道称该公司被迫重新启用英伟达芯片进行训练,仅保留华为设备用于推理环节。
据《金融时报》引述三名知情人士说法,在R1取得成功后,中国相关部门曾建议深度求索放弃英伟达转用华为昇腾平台进行模型训练。该公司在开发R2期间采纳了这一建议,但随即遭遇硬件性能不稳、芯片间通信延迟以及华为CANN软件工具包功能局限等一系列问题。
这迫使深度求索恢复使用英伟达AI加速器训练R2模型,同时保留华为硬件执行推理任务。这种混合方案虽属无奈之举,但在中国市场英伟达处理器短缺的背景下,确保新模型适配华为硬件具有现实意义——因为多数客户将在该平台上部署R2。
报道称华为曾派遣工程师团队进驻深度求索数据中心试图解决训练难题,但迄今为止仍未实现在昇腾平台上完成完整训练。项目知情人士向《金融时报》透露,这直接导致R2从原计划的2024年5月延期发布,此前另有报道指出中国境内高性能英伟达GPU紧缺也是影响因素。目前尚不确定R2是否已完成全部预训练。
据悉,深度求索通过投资方高瓴资本(High-Flyer Capital Management)获得了由3万张HGX H20、1万张H800和1万张H100组成的5万张Hopper架构GPU集群用于R1训练。由于技术迭代规律,R2需要更强大的计算集群,考虑到中国现有大量AI数据中心资源,该需求或较易满足。
但更深层的问题在于:深度求索的AI平台专为英伟达硬件优化,这不仅使其受制于英伟达GPU供应,也导致客户依赖HGX H20等加速器货源。因此,实现R2在华为昇腾等国产硬件平台上的稳定推理,对该公司具有战略必要性。