AMD强力AI芯片终登陆Windows，性能提升三倍

AMD的硬件团队曾试图通过锐龙AI Max和线程撕裂者等强大芯片重新定义AI推理，但在软件层面，这家公司在PC领域长期缺席。AMD高管表示这种情况正在改变。

周四举行的“Advancing AI”活动聚焦于Instinct系列企业级GPU，但真正支撑AMD战略的是一个鲜为人知的软件平台——ROCm。随着ROCm 7的发布，AMD宣称仅通过软件优化就能将AI推理性能提升三倍。这个曾专属于Linux生态的工具终于登陆Windows平台，正面对抗英伟达(Nvidia)的CUDA霸权。

Radeon开放式计算平台(ROCm)是AMD面向AI计算的开源软件栈，包含驱动程序和运行AI工作负载的工具。就像几周前英伟达GeForce RTX 5060因驱动缺失沦为“硅块废铁”的教训，早期AMD也面临同样困境。由于资源有限，AMD选择优先服务企业客户，AI解决方案事业部副总裁Ramine Roane坦言这是“痛点所在”：我们过去将ROCm重点投入云端GPU，却忽视了终端设备——现在正在纠正这个错误。

在当今市场，仅凭优秀产品已不够。正如前微软CEO史蒂夫·鲍尔默(Steve Ballmer)高喊“开发者！开发者！开发者！”的深意，或是索尼通过PlayStation推广蓝光格式的案例，构建开发者生态才是制胜关键。Roane表示公司终于醒悟：我们原以为没必要投入资源移植Windows版本，现在明白开发者其实非常重视这个平台。

2025年第三季度起，PyTorch将提供ROCm预览支持，ONNX-EP则于7月跟进。这意味着搭载锐龙AI处理器笔记本、锐龙AI Max芯片台式机或Radeon GPU设备的用户，将获得更丰富的AI应用场景。以机器学习库PyTorch为例，Hugging Face的“Transformers”等流行模型都基于它运行，未来调用AMD硬件将更加便捷。

ROCm还将预装至主流Linux发行版：红帽(Red Hat)和Ubuntu计划2025年下半年支持，SuSE也将同步跟进。Roane特别说明了各平台适配的模型规模，从锐龙AI 300笔记本到线程撕裂者平台均有对应方案。

性能提升同样显著：ROCm 7在Llama 3.1 70B模型上实现3.2倍加速，Qwen2-72B提升3.4倍，DeepSeek R1更是达到3.8倍。（“B”代表参数规模，单位十亿级，通常参数越高输出质量越好）Roane指出，当前推理芯片的增长曲线已远超训练芯片，这些数字比以往更具意义。

（“训练”生成ChatGPT或Copilot等产品的AI模型，“推理”则是实际使用AI的过程。好比训练AI掌握棒球知识后，询问“贝比·鲁斯(Babe Ruth)是否比威利·梅斯(Willie Mays)优秀”就属于推理场景。）

升级后的ROCm栈在训练性能上也实现约三倍提升。AMD宣称，运行新软件的MI355X在DeepSeek R1模型上以8位浮点精度计算时，性能超越英伟达B200达1.3倍。在AI领域，快速生成更多token就是胜利，正如游戏追求多边形或像素渲染。让开发者充分利用现有AMD硬件，对用户和厂商是双赢。

目前AMD尚缺面向消费者的AI应用入口，无论是大语言模型(LLM)还是AI艺术生成。英特尔(Intel)推出AI Playground，英伟达虽未自研技术，但通过第三方合作开发了LM Studio。AI Playground的优势在于所有模型都针对英特尔硬件进行量化优化。

Roane透露类似优化模型也存在于锐龙AI Max等平台，但用户需自行前往Hugging Face等开源平台获取。当被PCWorld问及是否开发同类应用时，他评价AI Playground是“好创意”：虽无具体计划，但这确实是我们希望推进的方向。

搜索结果如下

阅读全文

AMD强力AI芯片终登陆Windows，性能提升三倍

也可以看看

詹姆斯·古恩透露，超人反派工程师将现身明日之人续集

阅读全文

DRAM价格预计飙升，因内存制造商优先生产服务器DDR5而非PC内存

阅读全文

Chrome 140终版更新，修复多个高危漏洞

阅读全文