英伟达全系支持谷歌DeepMind的DiffusionGemma开放模型，DGX Spark可达150词元每秒

英伟达（NVIDIA）整个 RTX/DGX 产品线已全面支持 谷歌（Google）旗下 DeepMind 的 DiffusionGemma 开放 AI 模型。

谷歌（Google）推出其最新开放 AI 模型：DiffusionGemma——英伟达（NVIDIA）在其 DGX 与 RTX 家族中提供全面支持。

DiffusionGemma 模型是一款开放模型，旨在提供快速的文本生成能力。伴随其发布，英伟达宣布在其 RTX 和 DGX 产品线中提供支持。更棒的是，虽然 DiffusionGemma 本身速度已经很快，但 英伟达针对该模型及其硬件所进行的优化，使其速度更为迅猛。

恭喜 @GoogleDeepMind 推出 DiffusionGemma。该模型每步并行生成 256 个词元（Token），在 DGX Spark 上可实现 150+ TPS，在单块 H100 上则能达到 1,000+ TPS。我们从首日起即提供支持：• 在 Hugging Face 上提供 BF16 和 NVFP4 检查点 • 免费……https：//t.co/0xqMXKvMQV—— 英伟达 AI（@NVIDIAAI），2026年6月10日

以下是该模型的主要亮点：

并行生成：DiffusionGemma 每步可同时降噪多达 256 个词元（Token），而非一次只预测一个。
基于 Gemma 4 构建：DiffusionGemma 建立在 Gemma 4 之上，这是一个拥有 260亿 参数的混合专家（MoE，Mixture-of-Experts）模型，每步仅激活 38亿 个参数。它将一个扩散头与谷歌的 Gemma 4 架构相结合。
性能提升高达4倍：这种提升意味着在本地硬件上，能够实现通常单用户生成会卡顿的快速文本生成。
开放且本地化：DiffusionGemma 采用宽松的 Apache 2.0 许可证开放权重，并可在 RTX 和 DGX Spark 上完全本地运行——无需云服务，无按次收费——并且在 Hugging Face Transformers、vLLM 和 Unsloth 中提供首日支持。

在 英伟达方面，他们提供首日支持，涵盖 GeForce RTX 显卡、RTX PRO 平台，以及从 Spark 迷你 PC 到由数据中心级芯片驱动的工作站等 DGX 系统。英伟达利用了其张量核（Tensor Core）架构和 CUDA 软件栈，提供了无需额外调优的强大支持。

英伟达还分享了一些数据。该公司表示，其用于 DGX Station 的 H100 Tensor Core 显卡（单卡）可实现 1,000 个词元（Token）/秒的性能，DGX Spark 系统可达 150 个词元（Token）/秒，而 DGX Station 则提供了同类最佳的本地推理性能。这些解决方案的性能大约是同等自回归模型的 4 倍。

在本地运行：使用 英伟达 DGX Spark 桌面级个人 AI 超级计算机——由 英伟达 GB10 Grace Blackwell 超级芯片驱动，配备 128GB 统一内存，并预装 英伟达 AI 软件栈，可用于原型设计、微调和完全本地的智能体工作流。
在 NVIDIA RTX PRO 6000 工作站上：为开发者、研究人员和 AI 专业人士提供充足空间，作为专业工作流的一部分，运行本地低延迟生成和智能体循环。
在 DGX Station 上：提供同类最佳的高速推理能力，速度高达 800 个词元（Token）/秒，以实现低延迟文本生成和智能体循环，同时拥有 748GB 的一致性内存。
在 GeForce RTX 显卡上：llama.cpp 支持即将推出。

想要立即开箱体验 DiffusionGemma 模型的用户，现在就可以在 RTX 5090 或 DGX Spark 系统上运行。英伟达提供了一个全栈且即用型的框架，供用户即刻试用该模型。

搜索结果如下

阅读全文

英伟达全系支持谷歌DeepMind的DiffusionGemma开放模型，DGX Spark可达150词元每秒

也可以看看

华纳兄弟获《破碎我》电影改编权，反乌托邦题材能否再掀浪潮

阅读全文

《生活大爆炸》续集《斯图亚特未能拯救宇宙》证明谢尔顿末日理论正确

阅读全文

Apple TV新剧《寡妇湾》融合恐怖与喜剧，未播完即获续订第二季

阅读全文