根据Artificial Analysis在领英(LinkedIn)上发布的文章透露,英伟达(Nvidia)再次刷新了人工智能世界纪录——采用Meta的Llama 4 Maverick大语言模型时,单用户每秒令牌处理量(TPS)突破1000大关。这一突破由配备八块布莱克韦尔(Blackwell)GPU的英伟达最新DGX B200节点实现。

Cover Image

英伟达以1038 TPS/用户的成绩超越原纪录保持者SambaNova(792 TPS/用户)31%。Artificial Analysis基准报告显示,在该性能指标上,英伟达与SambaNova遥遥领先其他竞争者。亚马逊(Amazon)和Groq成绩接近300 TPS/用户,而Fireworks、Lambda Labs、Kluster.ai、CentML、谷歌Vertex、Together.ai、Deepinfra、Novita和微软Azure均低于200 TPS/用户。

布莱克韦尔架构针对Llama 4 Maverick进行了全方位性能优化:通过TensorRT进行深度软件优化,并采用Eagle-3技术训练推测解码草案模型(通过预判令牌加速大语言模型推理)。仅这两项优化就使性能较布莱克韦尔先前最佳成绩提升4倍

精度方面采用FP8数据类型(替代BF16)、注意力运算(Attention operations)以及曾随深度求索(DeepSeek)R1模型引发轰动的混合专家(Mixture of Experts)技术。英伟达软件工程师还对CUDA内核实施空间分区、GEMM权重重排等优化以进一步提升性能。

TPS/用户是衡量AI单用户每秒令牌处理量的关键指标。令牌作为Copilot和ChatGPT等大语言模型软件的运算基础,用户输入的每个字符/单词均被转化为令牌,模型据此生成响应。该基准测试专注单用户场景(非批量处理),对提升聊天机器人响应速度具有重要指导意义。


文章标签: #人工智能 #英伟达 #性能突破 #大模型 #GPU

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。