RTX5050搭载20Gbps GDDR6显存,与RX9070同款
阅读全文

锤刻创思寰宇网
AMD正式推出其新一代开源软件栈技术ROCm 7版本,该版本进一步提升了人工智能开发效率。此次发布的ROCm 7标志着AMD从ROCm 6的技术迭代,后者在过去几年伴随AI计算的兴起经历了多次更新。以下是ROCm 7的主要特性亮点:
最新算法与模型支持
面向规模化AI的增强功能
对MI350系列加速器的全面支持
集群管理优化
企业级功能扩展
AMD表示,ROCm 7着重强化了推理能力,集成vLLM v1、llm-d和SGLang等先进框架,并针对分布式推理、预填充和数据解聚合等场景进行了深度优化。新增GEMM自动调优、混合专家系统(MoE)、注意力机制以及基于Python的内核编程等核心算法。
在数据类型支持方面,继宣布为MI350系列提供FP6/FP4支持后,ROCm 7进一步实现了对FP8/FP6/FP4及混合精度的完整支持。性能测试显示,相比ROCm 6,新一代软件栈在AI推理任务中可实现最高3.5倍提升:Llama 3.1 70B模型提速3.2倍,Qwen2-72B提升3.4倍,DeepSeek R1更达到3.8倍增幅。
值得关注的是,在DeepSeek R1(FP8吞吐量)测试中,基于Instinct MI355X GPU的ROCm 7相比NVIDIA Blackwell B200平台的CUDA方案实现了30%的性能优势。训练性能方面,Llama 2 70B、Llama 3.1 8B和Quen 1.5 7B等模型均获得3倍加速。
面向企业市场,ROCm 7提供端到端解决方案,支持安全数据集成与简易部署,可协同GPU/CPU/DPU异构计算,重点优化生成式AI工作负载。AMD还宣布将于今年下半年扩展对锐龙笔记本/工作站的支持,并同步推出预装Linux和完整Windows支持方案。