英伟达(NVIDIA)整个 RTX/DGX 产品线已全面支持 谷歌(Google)旗下 DeepMindDiffusionGemma 开放 AI 模型。

NVIDIA-RTX-DGX-GemmaDiffusion.jpeg

谷歌(Google)推出其最新开放 AI 模型:DiffusionGemma——英伟达(NVIDIA)在其 DGXRTX 家族中提供全面支持。

DiffusionGemma 模型是一款开放模型,旨在提供快速的文本生成能力。伴随其发布,英伟达宣布在其 RTXDGX 产品线中提供支持。更棒的是,虽然 DiffusionGemma 本身速度已经很快,但 英伟达针对该模型及其硬件所进行的优化,使其速度更为迅猛。

恭喜 @GoogleDeepMind 推出 DiffusionGemma。该模型每步并行生成 256词元(Token),在 DGX Spark 上可实现 150+ TPS,在单块 H100 上则能达到 1,000+ TPS。我们从首日起即提供支持:• 在 Hugging Face 上提供 BF16NVFP4 检查点 • 免费……https://t.co/0xqMXKvMQV—— 英伟达 AI(@NVIDIAAI),2026年6月10日

以下是该模型的主要亮点:

  • 并行生成DiffusionGemma 每步可同时降噪多达 256词元(Token),而非一次只预测一个。

  • 基于 Gemma 4 构建DiffusionGemma 建立在 Gemma 4 之上,这是一个拥有 260亿 参数的混合专家(MoE,Mixture-of-Experts)模型,每步仅激活 38亿 个参数。它将一个扩散头与 谷歌Gemma 4 架构相结合。

  • 性能提升高达4倍:这种提升意味着在本地硬件上,能够实现通常单用户生成会卡顿的快速文本生成。

  • 开放且本地化DiffusionGemma 采用宽松的 Apache 2.0 许可证开放权重,并可在 RTXDGX Spark 上完全本地运行——无需云服务,无按次收费——并且在 Hugging Face TransformersvLLMUnsloth 中提供首日支持。

英伟达方面,他们提供首日支持,涵盖 GeForce RTX 显卡、RTX PRO 平台,以及从 Spark 迷你 PC 到由数据中心级芯片驱动的工作站等 DGX 系统。英伟达利用了其张量核(Tensor Core)架构和 CUDA 软件栈,提供了无需额外调优的强大支持。

英伟达还分享了一些数据。该公司表示,其用于 DGX StationH100 Tensor Core 显卡(单卡)可实现 1,000词元(Token)/秒的性能,DGX Spark 系统可达 150词元(Token)/秒,而 DGX Station 则提供了同类最佳的本地推理性能。这些解决方案的性能大约是同等自回归模型的 4 倍。

  • 在本地运行:使用 英伟达 DGX Spark 桌面级个人 AI 超级计算机——由 英伟达 GB10 Grace Blackwell 超级芯片驱动,配备 128GB 统一内存,并预装 英伟达 AI 软件栈,可用于原型设计、微调和完全本地的智能体工作流。

  • NVIDIA RTX PRO 6000 工作站上:为开发者、研究人员和 AI 专业人士提供充足空间,作为专业工作流的一部分,运行本地低延迟生成和智能体循环。

  • DGX Station 上:提供同类最佳的高速推理能力,速度高达 800词元(Token)/秒,以实现低延迟文本生成和智能体循环,同时拥有 748GB 的一致性内存。

  • GeForce RTX 显卡上:llama.cpp 支持即将推出。

想要立即开箱体验 DiffusionGemma 模型的用户,现在就可以在 RTX 5090DGX Spark 系统上运行。英伟达提供了一个全栈且即用型的框架,供用户即刻试用该模型。


文章标签: #开放AI #文本生成 #英伟达 #并行生成 #本地部署

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。