AMD发布vLLM-ATOM插件，大幅提升AI大模型推理性能

AMD推出了一款名为vLLM-ATOM的新型插件，可极大增强人工智能大语言模型（AI LLM）的性能，同时支持其Instinct MI350和MI400 GPU。

AMD凭借其vLLM-ATOM插件，为AI大语言模型带来重大性能提升，该插件可与vLLM无缝协作，加速AI推理性能。vLLM-ATOM是一款专用插件，旨在提升各类AI大语言模型的推理性能。它围绕AMD高性能的Instinct GPU加速器（如MI350和MI400系列）设计，既可以作为独立推理服务器运行，也可作为插件后端无缝集成。这使得用户可以充分利用AMD的原生模型和内核优化，而无需对vLLM的核心数据库进行任何修改。

vLLM-ATOM的主要亮点包括：

零学习成本：与现有vLLM命令、API和端到端工作流完全兼容。ATOM在后台透明运行，无需新工具或复杂配置，即可提供增强的内核性能，同时保持一致的用户体验。
即时获取AMD的创新成果：开箱即用地利用最前沿的AMD硬件特性（例如MI355X GPU上的FP4、MI400 GPU上的机架级推理）和顶级内核优化（例如AITER融合注意力、自定义AllReduce），无需等待上游集成到主vLLM代码库。这大大缩短了新型AMD GPU的价值实现时间。
敏捷的创新沙盒：为新技术构想、硬件支持和内核库测试（如AITER）提供快速验证层。该插件灵活地与AMD产品路线图保持一致，包括新GPU发布、FP8/FP4精度支持以及下一代注意力机制，不受vLLM上游发布周期的限制。
将vLLM作为ROCm的生产级基础：作为社区标准的服务框架，vLLM提供了大规模部署基于ROCm的基础设施所必需的企业级稳定性、广泛的模型覆盖范围和关键的生产特性。
成熟的优化成果将回馈社区：ATOM作为新优化的临时验证场；一旦优化稳定，内核、优化策略和新特性将被上游整合到vLLM的原生ROCm后端，造福整个ROCm软件用户社区，并加强开源LLM生态系统。

vLLM-ATOM架构分为三层：

vLLM：负责请求调度、KV缓存管理、持续批处理、OpenAI兼容API。
ATOM插件：负责平台注册、优化的模型实现、注意力后端路由、内核级优化调优。
AITER：负责底层GPU内核——融合MoE、闪存注意力、量化GEMM、RoPE融合。

在模型支持方面，vLLM-ATOM插件通过统一的推理服务管道，同时支持AI大语言模型（LLM）和视觉语言模型（VLM）。以下是完整列表：

架构：MoE、MoE（MLA）、混合MoE、稠密（文本/VLM）。
代表模型：Qwen/Qwen3-235B-A22B-Instruct-2507-FP8、deepseek-ai/DeepSeek-R1-0528（FP8）、amd/DeepSeek-R1-0528-MXFP4、amd/Kimi-K2-Thinking-MXFP4、openai/gpt-oss-120b、zai-org/GLM-4.7-FP8、Qwen/Qwen3-Next-80B-A3B-Instruct-FP8、Qwen/Qwen3.5-35B-A3B-FP8、Qwen/Qwen3.5-397B-A17B-FP8、amd/Kimi-K2.5-MXFP4。
ATOM模型类：atom.models.qwen3_moe、atom.models.deepseek_v2、atom.models.gpt_oss、atom.models.glm4_moe、atom.models.qwen3_next、atom.models.qwen3_5、atom.models.kimi_k25。

AMD指出：vLLM-ATOM证明了硬件特定优化与框架兼容性并非互斥。通过利用vLLM的开箱即用插件机制，ATOM提供了AMD原生的内核优化（包括融合注意力、量化GEMM和优化的MoE路由），同时保留了生产级LLM部署所依赖的vLLM全部功能集。除了即时性能提升外，该插件的架构还是AMD硬件和软件创新的关键验证场：在ATOM插件模式下验证的优化将逐步上游整合到vLLM的原生ROCm后端，造福整个ROCm和开源LLM社区。对于最终用户而言，这意味着可以立即使用AMD最新的硬件能力，而无需等待缓慢的上游集成周期——从而在AMD硬件创新与vLLM服务生态系统之间形成一个协同进化的良性循环。

搜索结果如下

阅读全文

AMD发布vLLM-ATOM插件，大幅提升AI大模型推理性能

也可以看看

史蒂芬·金科幻恐怖剧《魔童学院》横扫流媒体，已霸榜超200天

阅读全文

《匹诺曹的谎言》续作领衔，NEOWIZ公开六款游戏未来布局

阅读全文

新版《豪勇七蛟龙》电视剧演员揭晓，迈克尔·埃利加盟饰演文·坦纳

阅读全文