英伟达DGX B200创世界纪录，单用户令牌处理破千

根据Artificial Analysis在领英（LinkedIn）上发布的文章透露，英伟达（Nvidia）再次刷新了人工智能世界纪录——采用Meta的Llama 4 Maverick大语言模型时，单用户每秒令牌处理量（TPS）突破1000大关。这一突破由配备八块布莱克韦尔（Blackwell）GPU的英伟达最新DGX B200节点实现。

Cover Image

英伟达以1038 TPS/用户的成绩超越原纪录保持者SambaNova（792 TPS/用户）31%。Artificial Analysis基准报告显示，在该性能指标上，英伟达与SambaNova遥遥领先其他竞争者。亚马逊（Amazon）和Groq成绩接近300 TPS/用户，而Fireworks、Lambda Labs、Kluster.ai、CentML、谷歌Vertex、Together.ai、Deepinfra、Novita和微软Azure均低于200 TPS/用户。

布莱克韦尔架构针对Llama 4 Maverick进行了全方位性能优化：通过TensorRT进行深度软件优化，并采用Eagle-3技术训练推测解码草案模型（通过预判令牌加速大语言模型推理）。仅这两项优化就使性能较布莱克韦尔先前最佳成绩提升4倍。

精度方面采用FP8数据类型（替代BF16）、注意力运算（Attention operations）以及曾随深度求索（DeepSeek）R1模型引发轰动的混合专家（Mixture of Experts）技术。英伟达软件工程师还对CUDA内核实施空间分区、GEMM权重重排等优化以进一步提升性能。

TPS/用户是衡量AI单用户每秒令牌处理量的关键指标。令牌作为Copilot和ChatGPT等大语言模型软件的运算基础，用户输入的每个字符/单词均被转化为令牌，模型据此生成响应。该基准测试专注单用户场景（非批量处理），对提升聊天机器人响应速度具有重要指导意义。

搜索结果如下

阅读全文

英伟达DGX B200创世界纪录，单用户令牌处理破千

也可以看看

《死亡搁浅2》PC版发售，助推全球销量突破200万份

阅读全文

两大漫威巨星传闻加盟，《复仇者联盟：末日之战》补拍引期待

阅读全文

丹泽尔·华盛顿加盟《黑豹3》，奥斯卡后更显完美

阅读全文