AMD的硬件团队曾试图通过锐龙AI Max和线程撕裂者等强大芯片重新定义AI推理,但在软件层面,这家公司在PC领域长期缺席。AMD高管表示这种情况正在改变。

Cover Image

周四举行的“Advancing AI”活动聚焦于Instinct系列企业级GPU,但真正支撑AMD战略的是一个鲜为人知的软件平台——ROCm。随着ROCm 7的发布,AMD宣称仅通过软件优化就能将AI推理性能提升三倍。这个曾专属于Linux生态的工具终于登陆Windows平台,正面对抗英伟达(Nvidia)的CUDA霸权。

Radeon开放式计算平台(ROCm)是AMD面向AI计算的开源软件栈,包含驱动程序和运行AI工作负载的工具。就像几周前英伟达GeForce RTX 5060因驱动缺失沦为“硅块废铁”的教训,早期AMD也面临同样困境。由于资源有限,AMD选择优先服务企业客户,AI解决方案事业部副总裁Ramine Roane坦言这是“痛点所在”:我们过去将ROCm重点投入云端GPU,却忽视了终端设备——现在正在纠正这个错误。

在当今市场,仅凭优秀产品已不够。正如前微软CEO史蒂夫·鲍尔默(Steve Ballmer)高喊“开发者!开发者!开发者!”的深意,或是索尼通过PlayStation推广蓝光格式的案例,构建开发者生态才是制胜关键。Roane表示公司终于醒悟:我们原以为没必要投入资源移植Windows版本,现在明白开发者其实非常重视这个平台。

2025年第三季度起,PyTorch将提供ROCm预览支持,ONNX-EP则于7月跟进。这意味着搭载锐龙AI处理器笔记本、锐龙AI Max芯片台式机或Radeon GPU设备的用户,将获得更丰富的AI应用场景。以机器学习库PyTorch为例,Hugging Face的“Transformers”等流行模型都基于它运行,未来调用AMD硬件将更加便捷。

ROCm还将预装至主流Linux发行版:红帽(Red Hat)和Ubuntu计划2025年下半年支持,SuSE也将同步跟进。Roane特别说明了各平台适配的模型规模,从锐龙AI 300笔记本到线程撕裂者平台均有对应方案。

性能提升同样显著:ROCm 7在Llama 3.1 70B模型上实现3.2倍加速,Qwen2-72B提升3.4倍,DeepSeek R1更是达到3.8倍。(“B”代表参数规模,单位十亿级,通常参数越高输出质量越好)Roane指出,当前推理芯片的增长曲线已远超训练芯片,这些数字比以往更具意义。

(“训练”生成ChatGPT或Copilot等产品的AI模型,“推理”则是实际使用AI的过程。好比训练AI掌握棒球知识后,询问“贝比·鲁斯(Babe Ruth)是否比威利·梅斯(Willie Mays)优秀”就属于推理场景。)

升级后的ROCm栈在训练性能上也实现约三倍提升。AMD宣称,运行新软件的MI355X在DeepSeek R1模型上以8位浮点精度计算时,性能超越英伟达B200达1.3倍。在AI领域,快速生成更多token就是胜利,正如游戏追求多边形或像素渲染。让开发者充分利用现有AMD硬件,对用户和厂商是双赢。

目前AMD尚缺面向消费者的AI应用入口,无论是大语言模型(LLM)还是AI艺术生成。英特尔(Intel)推出AI Playground,英伟达虽未自研技术,但通过第三方合作开发了LM Studio。AI Playground的优势在于所有模型都针对英特尔硬件进行量化优化。

Roane透露类似优化模型也存在于锐龙AI Max等平台,但用户需自行前往Hugging Face等开源平台获取。当被PCWorld问及是否开发同类应用时,他评价AI Playground是“好创意”:虽无具体计划,但这确实是我们希望推进的方向。


文章标签: #AMD #AI芯片 #ROCm #Windows #性能提升

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。