AMD发布ROCm 7，支持MI350，新增AI算法与模型，推理性能提升3.5倍

AMD正式推出其新一代开源软件栈技术ROCm 7版本，该版本进一步提升了人工智能开发效率。此次发布的ROCm 7标志着AMD从ROCm 6的技术迭代，后者在过去几年伴随AI计算的兴起经历了多次更新。以下是ROCm 7的主要特性亮点：

Cover Image

核心升级包括：

最新算法与模型支持
面向规模化AI的增强功能
对MI350系列加速器的全面支持
集群管理优化
企业级功能扩展

AMD表示，ROCm 7着重强化了推理能力，集成vLLM v1、llm-d和SGLang等先进框架，并针对分布式推理、预填充和数据解聚合等场景进行了深度优化。新增GEMM自动调优、混合专家系统(MoE)、注意力机制以及基于Python的内核编程等核心算法。

在数据类型支持方面，继宣布为MI350系列提供FP6/FP4支持后，ROCm 7进一步实现了对FP8/FP6/FP4及混合精度的完整支持。性能测试显示，相比ROCm 6，新一代软件栈在AI推理任务中可实现最高3.5倍提升：Llama 3.1 70B模型提速3.2倍，Qwen2-72B提升3.4倍，DeepSeek R1更达到3.8倍增幅。

值得关注的是，在DeepSeek R1(FP8吞吐量)测试中，基于Instinct MI355X GPU的ROCm 7相比NVIDIA Blackwell B200平台的CUDA方案实现了30%的性能优势。训练性能方面，Llama 2 70B、Llama 3.1 8B和Quen 1.5 7B等模型均获得3倍加速。

面向企业市场，ROCm 7提供端到端解决方案，支持安全数据集成与简易部署，可协同GPU/CPU/DPU异构计算，重点优化生成式AI工作负载。AMD还宣布将于今年下半年扩展对锐龙笔记本/工作站的支持，并同步推出预装Linux和完整Windows支持方案。

搜索结果如下

阅读全文

AMD发布ROCm 7，支持MI350，新增AI算法与模型，推理性能提升3.5倍

核心升级包括：

也可以看看

《哈利·波特》汤姆·费尔顿，《哈利·波特与被诅咒的孩子》百老汇演出再延半年

阅读全文

为何《摩尔暗影之王》是新粉入坑星战的完美剧集

阅读全文

西部数据三星SSD韩国价格翻倍，SN850X系列1TB起价400美元

阅读全文