AMD已在其全系列GPUCPU上推出对谷歌(Google)Gemma 4的官方支持,为这款紧凑型AI模型提供支持。AMD Radeon GPURyzen AI CPU全面支持谷歌Gemma 4 AI模型。

Cover Image

谷歌发布了其最新的开源权重AI模型系列,名为Gemma 4,其规模涵盖从2B31B不等。借此机会,AMD宣布在其整个Radeon GPURyzen AI CPU产品家族中推出支持。

AMD自豪地宣布,在其全系列支持AI的硬件产品组合中,为整套Gemma 4模型提供Day Zero支持。这包括面向云和企业数据中心的AMD Instinct GPU、面向AI工作站的AMD Radeon GPU,以及面向AI PCAMD Ryzen AI处理器。支持内容包括与最流行的AI应用程序(如LM Studio)的集成,以及对开源软件项目的支持,包括vLLMSGLangllama.cppOllamaLemonade

使用 vLLM 部署

Gemma 4可以通过vLLM部署在AMD GPU上,以利用该推理框架中的诸多优化,特别是与支持多并发请求相关的优化。vLLM支持的整个AMD GPU系列,包括多代InstinctRadeon GPU,均可用于Gemma 4模型。此支持计划在Gemma 4发布版本的上游 vLLM以及未来的Nightly版本中提供,可通过Docker镜像或Python可安装包的形式安装,具体流程记录在https://vllm.ai/

对于所有AMD GPU,可以使用TRITON_ATTN后端调用vLLM

计划很快将在MI300MI350系列GPU上提供对其他注意力后端(带有额外优化)的支持。

使用 SGLang 部署

Gemma 4也可以使用SGLang部署在AMD MI300X/MI325X/MI35X GPU上,该框架提供高性能服务。

SGLang支持完整的Gemma 4家族,包括密集模型(E2BE4B31B)和MoE变体(26B-A4B)。此支持在Gemma 4发布版本的SGLang中可用,通过遵循https://cookbook.sglang.io/Docker镜像实现。

所有Gemma 4模型都需要Triton注意力后端来实现双向图像-令牌注意力。

Gemma 4模型在TP=1且完整上下文长度的情况下,可适配单个MI300X GPU192 GB HBM)。对于更高吞吐量的工作负载,可以增加张量并行度(例如,--tp 2)。

使用 LM Studio 在本地硬件上部署

通过开源项目llama.cppLM Studio,可以轻松且高性能地在AMD硬件上部署Gemma 4模型。用户可以通过下载流行的LM Studio应用程序,并将其与最新的AMD Software: Adrenalin Edition驱动程序配对,在支持的硬件(如AMD Ryzen AIRyzen AI Max处理器,以及RadeonRadeon PRO显卡)上快速启动这些模型。

使用 Lemonade Server 在本地硬件上部署

Lemonade Server通过一个具有OpenAI兼容API的开源本地LLM服务器,支持在AMD硬件上部署Gemma 4模型。它支持通过ROCmAMD RadeonRadeon PRO GPU上加速,以及使用XDNA 2 NPUAMD Ryzen AI处理器上加速。

使用 Lemonade 和 ROCm 进行 GPU 部署

要在启用ROCm加速的AMD GPU上运行Gemma 4

安装Lemonade,并从发布构件中为您的GPU架构下载llama.cpp的预览版ROCm构建(例如,用于Radeon 8060Sllama-windows-rocm-gfx1151-x64)。

通过设置环境变量将Lemonade指向ROCm构建。

启动Lemonade并通过API加载Gemma 4模型。

通过OpenAI兼容API与模型聊天。

使用 Ryzen AI 进行 NPU 部署

开发人员将能够通过集成支持最新AMD XDNA 2 NPULemonade Server,在NPU上部署Gemma 4模型。对Gemma-4 E2BE4B模型的NPU支持将随下一次Ryzen AI软件更新到来。此更新将集成到Lemonade中,并将直接作为OnnxRuntime API提供给开发人员。


文章标签: #AMD #谷歌 #Gemma4 #AI模型 #硬件支持

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。