英伟达(NVIDIA)RTX Pro 6000 Blackwell显卡展示了为何在运行大型AI模型时,单颗专业GPU能胜过主流的多GPU配置,其性能甚至超越了四块RTX 5090

Cover Image

单块RTX Pro 6000 Blackwell GPU运行2300亿参数AI模型,功耗仅为四块RTX 5090的四分之一。

用户SteveibeX平台上分享了他的测试套件基准数据,旨在探究是否有可能在家用环境中运行大型AI模型。作为演示,他使用了2300亿参数的AI推理模型MiniMax M2.7,并在四种不同的、均基于英伟达显卡的测试平台上运行。评估时使用了32k的上下文长度和4096的最大令牌长度。

该用户表示,他选择了IQ3_XXS量化方法,这是一种GGUF量化方案,支持显存较低的硬件配置,同时它也是能适配RTX Pro 6000 GPU96GB显存的最大量化版本。所有四种测试配置均使用了相同的量化模型,结果如下:

  • 4x RTX 4090(96GB)71.52 tok/sTTFT 1045ms

  • 4x RTX 5090(128GB)120.54 tok/sTTFT 725ms

  • 1x RTX Pro 6000(96GB)118.74 tok/sTTFT 765ms

  • DGX Spark(128GB)24.41 tok/sTTFT 741ms

在令牌生成速度方面,单块英伟达 RTX Pro 6000 Blackwell GPU达到了118.74 Tks/s。作为对比,总显存容量为128GB的四块RTX 5090 GPU产生了120.54 Tks/s,而四块上一代的RTX 4090(4 x 24GB)则产生了71.52 Tks/s。拥有128GB内存的DGX Spark Mini AI PC产生了24.41 Tks/s

尽管四块RTX 5090与单块RTX Pro 6000 Blackwell性能相当,但这只是故事的一半,因为令牌生成速度不应是唯一的衡量标准。我们还必须考虑功耗和价格。

在比较功耗时,我们看到了更大的差异。四GPU配置(无论是RTX 4090还是RTX 5090)分别消耗1800W2300W。而单块RTX Pro 6000 Blackwell GPU仅消耗600W的功率。

  • 4x40901,800W峰值(450W × 4

  • 4x50902,300W峰值(575W × 4

  • RTX Pro 6000600W峰值

  • DGX Spark240W峰值(整机系统)

这意味着其功耗仅为四块RTX 5090的四分之一,是四块4090的三分之一。DGX Spark的整机系统功耗为240W,考虑到其低得多的功耗以及完整的系统封装(据称对预填充友好,且仅需墙插供电),这是一台相当不错的机器。

现在我们必须谈谈价格。单块RTX Pro 6000 Blackwell的零售价约为9500美元,而单块RTX 5090的零售价约为3500美元,因此四块5090的总价将达到14000美元。与此同时,经历涨价后的DGX Spark零售价为4699美元

  • RTX 4090平均零售价 - 3000美元(每GPU

  • RTX 5090平均零售价 - 3500美元(每GPU

  • RTX Pro 6000平均零售价 - 9500美元(每GPU

  • DGX Spark AI PC平均零售价 - 4699美元

尽管AI模型可以利用多块GPU并发挥其峰值内存容量,但某些配置仍会带来额外开销,这一点在此次测试中可见一斑。单块96GB显存的RTX Pro 6000 Blackwell克服了这些缺点,以更高的能效和更好的性价比提供了更优越的性能表现。


文章标签: #英伟达 #GPU #AI模型 #性能测试 #能效比

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。