高通于周一正式发布两款即将问世的人工智能推理加速器——AI200与AI250,预计将分别于2026年和2027年投放市场。据悉,这两款新型加速器将在运行大规模生成式AI工作负载时,以更高的能效和更低的运营成本,与AMD和英伟达(Nvidia)的机架级解决方案展开竞争。此次发布也再次确认了高通按年度节奏发布更新产品的计划。

AI200和AI250加速器均基于专为数据中心AI工作负载定制的高通Hexagon神经处理单元(NPU)。近年来,该公司持续改进其Hexagon NPU,因此这些处理器的最新版本已具备标量、矢量和张量加速器(采用12+8+1配置),支持INT2、INT4、INT8、INT16、FP8、FP16等多种数据格式,并采用微块推理以减少内存流量,支持64位内存寻址、虚拟化以及生成式AI模型加密以增强安全性。将Hexagon架构扩展至数据中心工作负载对高通而言是顺理成章的选择,不过该公司为其AI200和AI250单元设定的性能目标仍有待观察。
高通的AI200机架级解决方案将是该公司首款数据中心级推理系统,由AI200加速器提供动力,板载768 GB LPDDR内存(这对推理加速器而言是极大的内存容量),将使用PCIe互连进行纵向扩展,并使用以太网进行横向扩展。该系统将采用直接液冷技术,每个机架的功率封装为160 kW,这对推理解决方案而言也是前所未有的功耗水平。此外,该系统还将支持企业部署的机密计算。该解决方案将于2026年上市。
将于一年后推出的AI250保留了这一结构,但增加了近内存计算架构,将有效内存带宽提升逾10倍。此外,该系统将支持分解式推理能力,使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款针对大型Transformer模型优化的更高效率、高带宽解决方案,同时保持与AI200相同的散热、冷却、安全及可扩展性特性。
高通技术公司技术规划、边缘解决方案与数据中心高级副总裁兼总经理杜尔加·马拉迪(Durga Malladi)表示:“通过高通AI200和AI250,我们正在重新定义机架级AI推理的可能性。这些创新的新型AI基础设施解决方案使客户能够以前所未有的总拥有成本部署生成式AI,同时满足现代数据中心所需的灵活性与安全性。”
除构建硬件平台外,高通还在打造一个超大规模级、端到端的软件平台,专为大规模推理优化。该平台将支持主流的机器学习和生成式AI工具集——包括PyTorch、ONNX、vLLM、LangChain和CrewAI,同时实现无缝模型部署。该软件栈将支持分解式服务、机密计算以及预训练模型的一键接入,以简化部署流程。
马拉迪补充道:“我们丰富的软件栈和开放的生态系统支持,使开发者和企业比以往任何时候都更轻松地在我们的优化AI推理解决方案上集成、管理和扩展已训练好的AI模型。高通AI200和AI250通过与领先AI框架的无缝兼容及一键模型部署功能,旨在实现无障碍采用和快速创新。”
关于其AI200和AI250机架级推理解决方案,高通未披露的一个关键信息是这些机器将运行何种处理器。该公司于今年初正式启动了自研数据中心级CPU的开发工作。尽管部分CPU微架构基础工作可能已由Nuvia团队在此之前完成,但定义和开发逻辑设计仍需要约一年时间,随后至少还需六个月完成设计实现和流片,之后又需数月时间进行芯片启动和采样。简而言之,合理预期是高通自研CPU将在2027年末或更可能在2028年问世。话虽如此,至少AI200预计将采用现成的Arm或x86架构CPU,因此问题在于:具体会选用哪一款?



