英伟达(NVIDIA)的RTX Pro 6000 Blackwell显卡展示了为何在运行大型AI模型时,单颗专业GPU能胜过主流的多GPU配置,其性能甚至超越了四块RTX 5090。

单块RTX Pro 6000 Blackwell GPU运行2300亿参数AI模型,功耗仅为四块RTX 5090的四分之一。
用户Steveibe在X平台上分享了他的测试套件基准数据,旨在探究是否有可能在家用环境中运行大型AI模型。作为演示,他使用了2300亿参数的AI推理模型MiniMax M2.7,并在四种不同的、均基于英伟达显卡的测试平台上运行。评估时使用了32k的上下文长度和4096的最大令牌长度。
该用户表示,他选择了IQ3_XXS量化方法,这是一种GGUF量化方案,支持显存较低的硬件配置,同时它也是能适配RTX Pro 6000 GPU那96GB显存的最大量化版本。所有四种测试配置均使用了相同的量化模型,结果如下:
4x RTX 4090(96GB):71.52 tok/s,TTFT 1045ms
4x RTX 5090(128GB):120.54 tok/s,TTFT 725ms
1x RTX Pro 6000(96GB):118.74 tok/s,TTFT 765ms
DGX Spark(128GB):24.41 tok/s,TTFT 741ms
在令牌生成速度方面,单块英伟达 RTX Pro 6000 Blackwell GPU达到了118.74 Tks/s。作为对比,总显存容量为128GB的四块RTX 5090 GPU产生了120.54 Tks/s,而四块上一代的RTX 4090(4 x 24GB)则产生了71.52 Tks/s。拥有128GB内存的DGX Spark Mini AI PC产生了24.41 Tks/s。
尽管四块RTX 5090与单块RTX Pro 6000 Blackwell性能相当,但这只是故事的一半,因为令牌生成速度不应是唯一的衡量标准。我们还必须考虑功耗和价格。
在比较功耗时,我们看到了更大的差异。四GPU配置(无论是RTX 4090还是RTX 5090)分别消耗1800W和2300W。而单块RTX Pro 6000 Blackwell GPU仅消耗600W的功率。
4x4090 → 1,800W峰值(450W × 4)
4x5090 → 2,300W峰值(575W × 4)
RTX Pro 6000 → 600W峰值
DGX Spark → 240W峰值(整机系统)
这意味着其功耗仅为四块RTX 5090的四分之一,是四块4090的三分之一。DGX Spark的整机系统功耗为240W,考虑到其低得多的功耗以及完整的系统封装(据称对预填充友好,且仅需墙插供电),这是一台相当不错的机器。
现在我们必须谈谈价格。单块RTX Pro 6000 Blackwell的零售价约为9500美元,而单块RTX 5090的零售价约为3500美元,因此四块5090的总价将达到14000美元。与此同时,经历涨价后的DGX Spark零售价为4699美元。
RTX 4090平均零售价 - 3000美元(每GPU)
RTX 5090平均零售价 - 3500美元(每GPU)
RTX Pro 6000平均零售价 - 9500美元(每GPU)
DGX Spark AI PC平均零售价 - 4699美元
尽管AI模型可以利用多块GPU并发挥其峰值内存容量,但某些配置仍会带来额外开销,这一点在此次测试中可见一斑。单块96GB显存的RTX Pro 6000 Blackwell克服了这些缺点,以更高的能效和更好的性价比提供了更优越的性能表现。


