AMD全线GPU与CPU，正式支持谷歌Gemma 4 AI模型

AMD已在其全系列GPU和CPU上推出对谷歌（Google）Gemma 4的官方支持，为这款紧凑型AI模型提供支持。AMD Radeon GPU与Ryzen AI CPU全面支持谷歌的Gemma 4 AI模型。

Cover Image

谷歌发布了其最新的开源权重AI模型系列，名为Gemma 4，其规模涵盖从2B到31B不等。借此机会，AMD宣布在其整个Radeon GPU和Ryzen AI CPU产品家族中推出支持。

AMD自豪地宣布，在其全系列支持AI的硬件产品组合中，为整套Gemma 4模型提供Day Zero支持。这包括面向云和企业数据中心的AMD Instinct GPU、面向AI工作站的AMD Radeon GPU，以及面向AI PC的AMD Ryzen AI处理器。支持内容包括与最流行的AI应用程序（如LM Studio）的集成，以及对开源软件项目的支持，包括vLLM、SGLang、llama.cpp、Ollama和Lemonade。

使用 vLLM 部署

Gemma 4可以通过vLLM部署在AMD GPU上，以利用该推理框架中的诸多优化，特别是与支持多并发请求相关的优化。vLLM支持的整个AMD GPU系列，包括多代Instinct和Radeon GPU，均可用于Gemma 4模型。此支持计划在Gemma 4发布版本的上游 vLLM以及未来的Nightly版本中提供，可通过Docker镜像或Python可安装包的形式安装，具体流程记录在https://vllm.ai/。

对于所有AMD GPU，可以使用TRITON_ATTN后端调用vLLM。

计划很快将在MI300和MI350系列GPU上提供对其他注意力后端（带有额外优化）的支持。

使用 SGLang 部署

Gemma 4也可以使用SGLang部署在AMD MI300X/MI325X/MI35X GPU上，该框架提供高性能服务。

SGLang支持完整的Gemma 4家族，包括密集模型（E2B、E4B、31B）和MoE变体（26B-A4B）。此支持在Gemma 4发布版本的SGLang中可用，通过遵循https://cookbook.sglang.io/的Docker镜像实现。

所有Gemma 4模型都需要Triton注意力后端来实现双向图像-令牌注意力。

Gemma 4模型在TP=1且完整上下文长度的情况下，可适配单个MI300X GPU（192 GB HBM）。对于更高吞吐量的工作负载，可以增加张量并行度（例如，--tp 2）。

使用 LM Studio 在本地硬件上部署

通过开源项目llama.cpp和LM Studio，可以轻松且高性能地在AMD硬件上部署Gemma 4模型。用户可以通过下载流行的LM Studio应用程序，并将其与最新的AMD Software: Adrenalin Edition驱动程序配对，在支持的硬件（如AMD Ryzen AI和Ryzen AI Max处理器，以及Radeon和Radeon PRO显卡）上快速启动这些模型。

使用 Lemonade Server 在本地硬件上部署

Lemonade Server通过一个具有OpenAI兼容API的开源本地LLM服务器，支持在AMD硬件上部署Gemma 4模型。它支持通过ROCm在AMD Radeon和Radeon PRO GPU上加速，以及使用XDNA 2 NPU在AMD Ryzen AI处理器上加速。

使用 Lemonade 和 ROCm 进行 GPU 部署

要在启用ROCm加速的AMD GPU上运行Gemma 4：

安装Lemonade，并从发布构件中为您的GPU架构下载llama.cpp的预览版ROCm构建（例如，用于Radeon 8060S的llama-windows-rocm-gfx1151-x64）。

通过设置环境变量将Lemonade指向ROCm构建。

启动Lemonade并通过API加载Gemma 4模型。

通过OpenAI兼容API与模型聊天。

使用 Ryzen AI 进行 NPU 部署

开发人员将能够通过集成支持最新AMD XDNA 2 NPU的Lemonade Server，在NPU上部署Gemma 4模型。对Gemma-4 E2B和E4B模型的NPU支持将随下一次Ryzen AI软件更新到来。此更新将集成到Lemonade中，并将直接作为OnnxRuntime API提供给开发人员。

搜索结果如下

阅读全文

AMD全线GPU与CPU，正式支持谷歌Gemma 4 AI模型

使用 vLLM 部署

使用 SGLang 部署

使用 LM Studio 在本地硬件上部署

使用 Lemonade Server 在本地硬件上部署

使用 Lemonade 和 ROCm 进行 GPU 部署

使用 Ryzen AI 进行 NPU 部署

也可以看看

速度与激情衍生动画《速度与激情：间谍赛车手》，六季狂野突破系列规则

阅读全文

Prime Video新动作惊悚片《泽塔特工》融合谍影重重与斯坦森风格，流媒体排名攀升

阅读全文

《神秘海域5》泄露，内森·德雷克或回归引猜想

阅读全文