AMD正式发布ROCm 6.4版本,带来包括框架增强、更广泛操作系统支持以及多款性能分析工具优化在内的多项改进。不过该版本仍未支持RDNA 4架构GPU,这一缺失可能影响开发者转向AMD最新架构的积极性。
上月RDNA 4系列显卡上市时,行业曾普遍期待其能获得ROCm首发支持——AMD人工智能软件副总裁此前也曾暗示这一可能性。作为对标英伟达(Nvidia)CUDA生态的开源GPU计算平台,ROCm主要服务于Instinct加速器和Radeon Pro专业显卡。虽然近年来逐步开放对消费级Radeon显卡的支持,但其更新速度始终落后于CUDA平台。
RDNA 4架构在计算性能方面实现显著突破:FP16运算吞吐量翻倍,支持稀疏计算的INT4运算能力提升8倍。特别值得注意的是新增的FP8支持,在稀疏计算场景下较RDNA 3架构的FP16性能实现八倍提升。但若缺乏官方ROCm支持,这些硬件优势将难以完全释放。颇具戏剧性的是,首款采用Navi 48核心(即RX 9070系列)的显卡信息,正是通过去年ROCm的代码补丁被提前曝光。
ROCm 6.4的主要更新包括
本次更新重点包括:支持CPX模式下的NPS4内存模式;全面兼容PyTorch 2.6/2.5框架;rocDecode/rocPyDecode新增VP9解码功能;ROCm Compute Profiler工具的多项优化;以及新增对Oracle Linux 9系统和Radeon PRO W7800显卡的支持。
尽管AMD持续挑战CUDA的技术壁垒,但其硬件支持始终落后于英伟达。自2022年启动的Windows平台消费级显卡支持计划,目前已覆盖绝大多数RDNA 2/3系列产品(仅RX 6600至RX 6750 XT系列暂不支持HIP SDK),但RX 7650 GRE和RX 7900 GRE仍未获得支持。Linux平台的支持范围更为有限,目前仅兼容四款Radeon显卡。
值得关注的是,新一代Strix Halo APU(最高支持128GB内存)现已获得ROCm支持,为移动端AI/HPC工作负载提供了新的解决方案。AMD通常保持每月更新ROCm的节奏,RDNA 4支持有望在下一版本中实现。但这种不确定的兼容性策略,可能导致开发者更倾向于选择支持体系更完善、更新更可预测的英伟达平台。