巫师创作者再表轻视,游戏改编遭作家批评
阅读全文

锤刻创思寰宇网
深度求索(DeepSeek)公司发布了其最新大语言模型DeepSeek-V3.2-Exp,并首日即完成对华为昇腾硬件和CANN软件栈的优化适配。这一发布标志着行业重心正在转向确保尖端模型能在国产加速器上运行,而非依赖英伟达(Nvidia)的CUDA生态系统。
深度求索于9月29日宣布该模型,同步在Hugging Face平台发布了代码、检查点及技术报告。公司将V3.2-Exp描述为“通往下一代架构的中间阶段”,专为降低长上下文推理成本而设计。该模型采用稀疏注意力机制,在保持输出质量的同时显著降低内存与计算资源需求。
华为昇腾团队及更广泛的vLLM-昇腾社区迅速响应,完成了对DeepSeek-V3.2-Exp的集成。在vLLM-昇腾代码库中,新提交的议题详细说明了为支持V3.2-Exp在昇腾NPU上运行所需的自定义算子安装步骤与内核封装方案。CANN团队同时发布了推理实施方案,确保模型可在华为硬件上实现即时部署。
其他国产芯片厂商也纷纷加入适配行列:寒武纪(Cambricon)发布了兼容V3.2-Exp的vLLM-MLU分支更新,宣称其推理引擎与模型稀疏注意力机制相结合可大幅降低长序列处理成本;海光(Hygon)则宣布通过其DTK软件栈实现对DCU加速器的“零等待”部署调优。
与此同时,SGLang确认在包括昇腾在内的多后端支持V3.2-Exp,而深度求索的GitHub文档显示其初始版本已实现与vLLM的性能对标。值得注意的是,深度求索在公告中同时引用TileLang与CUDA内核,建议研究人员使用TileLang进行原型开发。这意味着同一模型仅需极少量图结构修改即可部署于英伟达与国产加速器平台。
此次技术落地的迅猛态势清晰表明,中国AI生态正在为英伟达硬件供应存在不确定性的未来做充分准备。尽管英伟达CUDA在训练与推理领域仍居主导地位,但深度求索此次发布成为国内头部企业首日即完成非CUDA技术栈优化的标杆案例。
昇腾、寒武纪与海光的协同推进迄今传递出最明确信号:中国企业正严肃落实国家对AI主权的战略要求,不仅致力于事后兼容,更将国产平台定位为一流部署目标。