英伟达(NVIDIA)整个 RTX/DGX 产品线已全面支持 谷歌(Google)旗下 DeepMind 的 DiffusionGemma 开放 AI 模型。

谷歌(Google)推出其最新开放 AI 模型:DiffusionGemma——英伟达(NVIDIA)在其 DGX 与 RTX 家族中提供全面支持。
DiffusionGemma 模型是一款开放模型,旨在提供快速的文本生成能力。伴随其发布,英伟达宣布在其 RTX 和 DGX 产品线中提供支持。更棒的是,虽然 DiffusionGemma 本身速度已经很快,但 英伟达针对该模型及其硬件所进行的优化,使其速度更为迅猛。
恭喜 @GoogleDeepMind 推出 DiffusionGemma。该模型每步并行生成 256 个词元(Token),在 DGX Spark 上可实现 150+ TPS,在单块 H100 上则能达到 1,000+ TPS。我们从首日起即提供支持:• 在 Hugging Face 上提供 BF16 和 NVFP4 检查点 • 免费……https://t.co/0xqMXKvMQV—— 英伟达 AI(@NVIDIAAI),2026年6月10日
以下是该模型的主要亮点:
并行生成:DiffusionGemma 每步可同时降噪多达 256 个词元(Token),而非一次只预测一个。
基于 Gemma 4 构建:DiffusionGemma 建立在 Gemma 4 之上,这是一个拥有 260亿 参数的混合专家(MoE,Mixture-of-Experts)模型,每步仅激活 38亿 个参数。它将一个扩散头与 谷歌的 Gemma 4 架构相结合。
性能提升高达4倍:这种提升意味着在本地硬件上,能够实现通常单用户生成会卡顿的快速文本生成。
开放且本地化:DiffusionGemma 采用宽松的 Apache 2.0 许可证开放权重,并可在 RTX 和 DGX Spark 上完全本地运行——无需云服务,无按次收费——并且在 Hugging Face Transformers、vLLM 和 Unsloth 中提供首日支持。
在 英伟达方面,他们提供首日支持,涵盖 GeForce RTX 显卡、RTX PRO 平台,以及从 Spark 迷你 PC 到由数据中心级芯片驱动的工作站等 DGX 系统。英伟达利用了其张量核(Tensor Core)架构和 CUDA 软件栈,提供了无需额外调优的强大支持。
英伟达还分享了一些数据。该公司表示,其用于 DGX Station 的 H100 Tensor Core 显卡(单卡)可实现 1,000 个词元(Token)/秒的性能,DGX Spark 系统可达 150 个词元(Token)/秒,而 DGX Station 则提供了同类最佳的本地推理性能。这些解决方案的性能大约是同等自回归模型的 4 倍。
在本地运行:使用 英伟达 DGX Spark 桌面级个人 AI 超级计算机——由 英伟达 GB10 Grace Blackwell 超级芯片驱动,配备 128GB 统一内存,并预装 英伟达 AI 软件栈,可用于原型设计、微调和完全本地的智能体工作流。
在 NVIDIA RTX PRO 6000 工作站上:为开发者、研究人员和 AI 专业人士提供充足空间,作为专业工作流的一部分,运行本地低延迟生成和智能体循环。
在 DGX Station 上:提供同类最佳的高速推理能力,速度高达 800 个词元(Token)/秒,以实现低延迟文本生成和智能体循环,同时拥有 748GB 的一致性内存。
在 GeForce RTX 显卡上:llama.cpp 支持即将推出。
想要立即开箱体验 DiffusionGemma 模型的用户,现在就可以在 RTX 5090 或 DGX Spark 系统上运行。英伟达提供了一个全栈且即用型的框架,供用户即刻试用该模型。



