AMD推出了一款名为vLLM-ATOM的新型插件,可极大增强人工智能大语言模型(AI LLM)的性能,同时支持其Instinct MI350MI400 GPU。

AMD-AI-LLMs-vLLM-ATOM-MI350-MI400-GPUs.jpeg

AMD凭借其vLLM-ATOM插件,为AI大语言模型带来重大性能提升,该插件可与vLLM无缝协作,加速AI推理性能。vLLM-ATOM是一款专用插件,旨在提升各类AI大语言模型的推理性能。它围绕AMD高性能的Instinct GPU加速器(如MI350MI400系列)设计,既可以作为独立推理服务器运行,也可作为插件后端无缝集成。这使得用户可以充分利用AMD的原生模型和内核优化,而无需对vLLM的核心数据库进行任何修改。

vLLM-ATOM的主要亮点包括:

  • 零学习成本:与现有vLLM命令、API和端到端工作流完全兼容。ATOM在后台透明运行,无需新工具或复杂配置,即可提供增强的内核性能,同时保持一致的用户体验。

  • 即时获取AMD的创新成果:开箱即用地利用最前沿的AMD硬件特性(例如MI355X GPU上的FP4、MI400 GPU上的机架级推理)和顶级内核优化(例如AITER融合注意力、自定义AllReduce),无需等待上游集成到主vLLM代码库。这大大缩短了新型AMD GPU的价值实现时间。

  • 敏捷的创新沙盒:为新技术构想、硬件支持和内核库测试(如AITER)提供快速验证层。该插件灵活地与AMD产品路线图保持一致,包括新GPU发布、FP8/FP4精度支持以及下一代注意力机制,不受vLLM上游发布周期的限制。

  • 将vLLM作为ROCm的生产级基础:作为社区标准的服务框架,vLLM提供了大规模部署基于ROCm的基础设施所必需的企业级稳定性、广泛的模型覆盖范围和关键的生产特性。

  • 成熟的优化成果将回馈社区:ATOM作为新优化的临时验证场;一旦优化稳定,内核、优化策略和新特性将被上游整合到vLLM的原生ROCm后端,造福整个ROCm软件用户社区,并加强开源LLM生态系统。

vLLM-ATOM架构分为三层:

  • vLLM:负责请求调度、KV缓存管理、持续批处理、OpenAI兼容API。

  • ATOM插件:负责平台注册、优化的模型实现、注意力后端路由、内核级优化调优。

  • AITER:负责底层GPU内核——融合MoE、闪存注意力、量化GEMM、RoPE融合。

在模型支持方面,vLLM-ATOM插件通过统一的推理服务管道,同时支持AI大语言模型(LLM)和视觉语言模型(VLM)。以下是完整列表:

  • 架构:MoE、MoE(MLA)、混合MoE、稠密(文本/VLM)。

  • 代表模型:Qwen/Qwen3-235B-A22B-Instruct-2507-FP8、deepseek-ai/DeepSeek-R1-0528(FP8)、amd/DeepSeek-R1-0528-MXFP4、amd/Kimi-K2-Thinking-MXFP4、openai/gpt-oss-120b、zai-org/GLM-4.7-FP8、Qwen/Qwen3-Next-80B-A3B-Instruct-FP8、Qwen/Qwen3.5-35B-A3B-FP8、Qwen/Qwen3.5-397B-A17B-FP8、amd/Kimi-K2.5-MXFP4。

  • ATOM模型类:atom.models.qwen3_moe、atom.models.deepseek_v2、atom.models.gpt_oss、atom.models.glm4_moe、atom.models.qwen3_next、atom.models.qwen3_5、atom.models.kimi_k25。

AMD指出:vLLM-ATOM证明了硬件特定优化与框架兼容性并非互斥。通过利用vLLM的开箱即用插件机制,ATOM提供了AMD原生的内核优化(包括融合注意力、量化GEMM和优化的MoE路由),同时保留了生产级LLM部署所依赖的vLLM全部功能集。除了即时性能提升外,该插件的架构还是AMD硬件和软件创新的关键验证场:在ATOM插件模式下验证的优化将逐步上游整合到vLLM的原生ROCm后端,造福整个ROCm和开源LLM社区。对于最终用户而言,这意味着可以立即使用AMD最新的硬件能力,而无需等待缓慢的上游集成周期——从而在AMD硬件创新与vLLM服务生态系统之间形成一个协同进化的良性循环。


文章标签: #AMD #AI推理 #大语言模型 #vLLM #GPU加速

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。