高通发布AI200和AI250推理加速器，挑战英伟达AMD

高通于周一正式发布两款即将问世的人工智能推理加速器——AI200与AI250，预计将分别于2026年和2027年投放市场。据悉，这两款新型加速器将在运行大规模生成式AI工作负载时，以更高的能效和更低的运营成本，与AMD和英伟达（Nvidia）的机架级解决方案展开竞争。此次发布也再次确认了高通按年度节奏发布更新产品的计划。

Cover Image

AI200和AI250加速器均基于专为数据中心AI工作负载定制的高通Hexagon神经处理单元（NPU）。近年来，该公司持续改进其Hexagon NPU，因此这些处理器的最新版本已具备标量、矢量和张量加速器（采用12+8+1配置），支持INT2、INT4、INT8、INT16、FP8、FP16等多种数据格式，并采用微块推理以减少内存流量，支持64位内存寻址、虚拟化以及生成式AI模型加密以增强安全性。将Hexagon架构扩展至数据中心工作负载对高通而言是顺理成章的选择，不过该公司为其AI200和AI250单元设定的性能目标仍有待观察。

高通的AI200机架级解决方案将是该公司首款数据中心级推理系统，由AI200加速器提供动力，板载768 GB LPDDR内存（这对推理加速器而言是极大的内存容量），将使用PCIe互连进行纵向扩展，并使用以太网进行横向扩展。该系统将采用直接液冷技术，每个机架的功率封装为160 kW，这对推理解决方案而言也是前所未有的功耗水平。此外，该系统还将支持企业部署的机密计算。该解决方案将于2026年上市。

将于一年后推出的AI250保留了这一结构，但增加了近内存计算架构，将有效内存带宽提升逾10倍。此外，该系统将支持分解式推理能力，使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款针对大型Transformer模型优化的更高效率、高带宽解决方案，同时保持与AI200相同的散热、冷却、安全及可扩展性特性。

高通技术公司技术规划、边缘解决方案与数据中心高级副总裁兼总经理杜尔加·马拉迪（Durga Malladi）表示：“通过高通AI200和AI250，我们正在重新定义机架级AI推理的可能性。这些创新的新型AI基础设施解决方案使客户能够以前所未有的总拥有成本部署生成式AI，同时满足现代数据中心所需的灵活性与安全性。”

除构建硬件平台外，高通还在打造一个超大规模级、端到端的软件平台，专为大规模推理优化。该平台将支持主流的机器学习和生成式AI工具集——包括PyTorch、ONNX、vLLM、LangChain和CrewAI，同时实现无缝模型部署。该软件栈将支持分解式服务、机密计算以及预训练模型的一键接入，以简化部署流程。

马拉迪补充道：“我们丰富的软件栈和开放的生态系统支持，使开发者和企业比以往任何时候都更轻松地在我们的优化AI推理解决方案上集成、管理和扩展已训练好的AI模型。高通AI200和AI250通过与领先AI框架的无缝兼容及一键模型部署功能，旨在实现无障碍采用和快速创新。”

关于其AI200和AI250机架级推理解决方案，高通未披露的一个关键信息是这些机器将运行何种处理器。该公司于今年初正式启动了自研数据中心级CPU的开发工作。尽管部分CPU微架构基础工作可能已由Nuvia团队在此之前完成，但定义和开发逻辑设计仍需要约一年时间，随后至少还需六个月完成设计实现和流片，之后又需数月时间进行芯片启动和采样。简而言之，合理预期是高通自研CPU将在2027年末或更可能在2028年问世。话虽如此，至少AI200预计将采用现成的Arm或x86架构CPU，因此问题在于：具体会选用哪一款？

搜索结果如下

阅读全文

高通发布AI200和AI250推理加速器，挑战英伟达AMD

也可以看看

《运输狂热3》开发预算2400万美元，九成投入游戏开发，专访揭秘高投入原因

阅读全文

匿名员工爆料，Rockstar裁员实为破坏工会

阅读全文

12年AMD老将再战江湖，FX-9590运行战地6，帧率达30-40

阅读全文