AMD正式推出其新一代开源软件栈技术ROCm 7版本,该版本进一步提升了人工智能开发效率。此次发布的ROCm 7标志着AMD从ROCm 6的技术迭代,后者在过去几年伴随AI计算的兴起经历了多次更新。以下是ROCm 7的主要特性亮点:

Cover Image

核心升级包括:

  • 最新算法与模型支持

  • 面向规模化AI的增强功能

  • 对MI350系列加速器的全面支持

  • 集群管理优化

  • 企业级功能扩展

AMD表示,ROCm 7着重强化了推理能力,集成vLLM v1、llm-d和SGLang等先进框架,并针对分布式推理、预填充和数据解聚合等场景进行了深度优化。新增GEMM自动调优、混合专家系统(MoE)、注意力机制以及基于Python的内核编程等核心算法。

在数据类型支持方面,继宣布为MI350系列提供FP6/FP4支持后,ROCm 7进一步实现了对FP8/FP6/FP4及混合精度的完整支持。性能测试显示,相比ROCm 6,新一代软件栈在AI推理任务中可实现最高3.5倍提升:Llama 3.1 70B模型提速3.2倍,Qwen2-72B提升3.4倍,DeepSeek R1更达到3.8倍增幅

值得关注的是,在DeepSeek R1(FP8吞吐量)测试中,基于Instinct MI355X GPU的ROCm 7相比NVIDIA Blackwell B200平台的CUDA方案实现了30%的性能优势。训练性能方面,Llama 2 70B、Llama 3.1 8B和Quen 1.5 7B等模型均获得3倍加速

面向企业市场,ROCm 7提供端到端解决方案,支持安全数据集成与简易部署,可协同GPU/CPU/DPU异构计算,重点优化生成式AI工作负载。AMD还宣布将于今年下半年扩展对锐龙笔记本/工作站的支持,并同步推出预装Linux和完整Windows支持方案。


文章标签: #AMD #ROCm7 #AI加速 #MI350 #推理优化

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。