AMD已在其全系列GPU和CPU上推出对谷歌(Google)Gemma 4的官方支持,为这款紧凑型AI模型提供支持。AMD Radeon GPU与Ryzen AI CPU全面支持谷歌的Gemma 4 AI模型。

谷歌发布了其最新的开源权重AI模型系列,名为Gemma 4,其规模涵盖从2B到31B不等。借此机会,AMD宣布在其整个Radeon GPU和Ryzen AI CPU产品家族中推出支持。
AMD自豪地宣布,在其全系列支持AI的硬件产品组合中,为整套Gemma 4模型提供Day Zero支持。这包括面向云和企业数据中心的AMD Instinct GPU、面向AI工作站的AMD Radeon GPU,以及面向AI PC的AMD Ryzen AI处理器。支持内容包括与最流行的AI应用程序(如LM Studio)的集成,以及对开源软件项目的支持,包括vLLM、SGLang、llama.cpp、Ollama和Lemonade。
使用 vLLM 部署
Gemma 4可以通过vLLM部署在AMD GPU上,以利用该推理框架中的诸多优化,特别是与支持多并发请求相关的优化。vLLM支持的整个AMD GPU系列,包括多代Instinct和Radeon GPU,均可用于Gemma 4模型。此支持计划在Gemma 4发布版本的上游 vLLM以及未来的Nightly版本中提供,可通过Docker镜像或Python可安装包的形式安装,具体流程记录在https://vllm.ai/。
对于所有AMD GPU,可以使用TRITON_ATTN后端调用vLLM。
计划很快将在MI300和MI350系列GPU上提供对其他注意力后端(带有额外优化)的支持。
使用 SGLang 部署
Gemma 4也可以使用SGLang部署在AMD MI300X/MI325X/MI35X GPU上,该框架提供高性能服务。
SGLang支持完整的Gemma 4家族,包括密集模型(E2B、E4B、31B)和MoE变体(26B-A4B)。此支持在Gemma 4发布版本的SGLang中可用,通过遵循https://cookbook.sglang.io/的Docker镜像实现。
所有Gemma 4模型都需要Triton注意力后端来实现双向图像-令牌注意力。
Gemma 4模型在TP=1且完整上下文长度的情况下,可适配单个MI300X GPU(192 GB HBM)。对于更高吞吐量的工作负载,可以增加张量并行度(例如,--tp 2)。
使用 LM Studio 在本地硬件上部署
通过开源项目llama.cpp和LM Studio,可以轻松且高性能地在AMD硬件上部署Gemma 4模型。用户可以通过下载流行的LM Studio应用程序,并将其与最新的AMD Software: Adrenalin Edition驱动程序配对,在支持的硬件(如AMD Ryzen AI和Ryzen AI Max处理器,以及Radeon和Radeon PRO显卡)上快速启动这些模型。
使用 Lemonade Server 在本地硬件上部署
Lemonade Server通过一个具有OpenAI兼容API的开源本地LLM服务器,支持在AMD硬件上部署Gemma 4模型。它支持通过ROCm在AMD Radeon和Radeon PRO GPU上加速,以及使用XDNA 2 NPU在AMD Ryzen AI处理器上加速。
使用 Lemonade 和 ROCm 进行 GPU 部署
要在启用ROCm加速的AMD GPU上运行Gemma 4:
安装Lemonade,并从发布构件中为您的GPU架构下载llama.cpp的预览版ROCm构建(例如,用于Radeon 8060S的llama-windows-rocm-gfx1151-x64)。
通过设置环境变量将Lemonade指向ROCm构建。
启动Lemonade并通过API加载Gemma 4模型。
通过OpenAI兼容API与模型聊天。
使用 Ryzen AI 进行 NPU 部署
开发人员将能够通过集成支持最新AMD XDNA 2 NPU的Lemonade Server,在NPU上部署Gemma 4模型。对Gemma-4 E2B和E4B模型的NPU支持将随下一次Ryzen AI软件更新到来。此更新将集成到Lemonade中,并将直接作为OnnxRuntime API提供给开发人员。



