谷歌(Google)最新的开源模型Gemma 4现已可在英伟达(NVIDIA)的消费级硬件上部署,为智能体人工智能工作负载提供最佳性能。

开源模型正在推动新一轮的设备端人工智能浪潮,将创新从云端延伸至日常设备。随着这些模型的进步,其价值越来越依赖于对本地、实时情境的访问,从而将有意义的洞察转化为行动。为适应这一转变,谷歌(Google)为Gemma 4家族新增了一系列小型、快速且全能型的模型,专为在各种设备上高效本地执行而构建。
谷歌(Google)与英伟达(NVIDIA)已合作优化Gemma 4,使其适配英伟达(NVIDIA)GPU,从而在一系列系统中实现高效性能——从数据中心部署,到搭载英伟达(NVIDIA)RTX的个人电脑和工作站,再到英伟达(NVIDIA)DGX Spark个人人工智能超级计算机以及英伟达(NVIDIA)Jetson Orin Nano边缘人工智能模块。
Gemma 4开源模型家族的最新成员——涵盖E2B、E4B、26B和31B等多种变体——专为从边缘设备到高性能GPU的高效部署而设计。
这一新一代紧凑型模型支持一系列任务,包括:
推理: 在复杂问题解决任务上表现出色。
编程: 为开发者工作流程提供代码生成和调试功能。
智能体: 原生支持结构化工具使用(函数调用)。
视觉、视频与音频能力: 支持丰富的多模态交互,用于物体识别、自动语音识别以及文档或视频智能分析。
交错多模态输入: 可在单个提示中按任意顺序混合文本和图像。
多语言: 开箱即用支持35种以上语言,预训练语言超过140种。
E2B和E4B模型专为边缘端超高效、低延迟推理而构建,可在包括Jetson Nano模块在内的多种设备上完全离线运行,实现近乎零延迟。
26B和31B模型则专为高性能推理和以开发者为中心的工作流程设计,使其非常适合智能体人工智能。这些模型经过优化,可提供先进且易于访问的推理能力,能在英伟达(NVIDIA)RTX GPU和DGX Spark上高效运行,为开发环境、编程助手和智能体驱动的工作流程提供动力。
随着本地智能体人工智能持续获得发展势头,像OpenClaw这样的应用程序正在使RTX个人电脑、工作站和DGX Spark上实现全天候人工智能助手成为可能。最新的Gemma 4模型与OpenClaw兼容,允许用户构建功能强大的本地智能体,这些智能体可以从个人文件、应用程序和工作流程中获取情境信息以自动化任务。
英伟达(NVIDIA)已与Ollama和llama.cpp合作,为每一款Gemma 4模型提供最佳的本地部署体验。
要在本地使用Gemma 4,用户可以下载Ollama来运行Gemma 4模型,或者安装llama.cpp并将其与Gemma 4的GGUF Hugging Face检查点配对。此外,Unsloth提供首日支持,提供经过优化和量化的模型,可通过Unsloth Studio进行高效的本地微调和部署。立即开始在Unsloth Studio中运行和微调Gemma 4。
在英伟达(NVIDIA)GPU上运行像Gemma 4家族这样的开源模型能够实现最佳性能,因为英伟达(NVIDIA)Tensor Core可加速人工智能推理工作负载,为本地执行提供更高的吞吐量和更低的延迟。此外,CUDA软件栈确保了与主流框架和工具的广泛兼容性,使得新模型能够从第一天起就高效运行。
这种组合使得像Gemma 4这样的开源模型能够跨广泛的系统扩展——从边缘的Jetson Orin Nano到RTX个人电脑、工作站和DGX Spark——而无需进行大量优化。



