英伟达(NVIDIA)近日披露,其Blackwell架构通过一系列优化和硬件性能提升,成功突破了人工智能的性能瓶颈。该公司在最新博文中宣布,采用八块Blackwell GPU的单个DGX B200节点,在运行Meta公司4000亿参数的Llama 4 Maverick模型(该领域最大规模模型之一)时,实现了每秒1000个token的生成速度(1000 TPS),这标志着英伟达AI生态系统已在该领域产生重大影响。
据测算,基于Blackwell架构的服务器现可达到每秒72000个token的生成能力。正如CEO黄仁勋(Jensen Huang)在台北国际电脑展主题演讲中所言,未来企业将通过硬件token输出能力来彰显AI技术实力,而英伟达正全力聚焦这一方向。突破性进展的实现源于TensorRT-LLM软件的深度优化及推测解码草案模型的应用,最终带来4倍的性能提升。
技术博客详细阐释了大型语言模型(LLM)的优化方案,其中推测解码技术尤为关键。该技术通过小型高速“草案”模型预先生成多个token,再由主模型(大型)并行验证,英伟达对此解释道:“推测解码能在保证文本生成质量的前提下显著加速LLM推理,其原理是让草案模型预测token序列,目标LLM则并行验证这些预测。”性能飞跃源于单次迭代可生成多个token,尽管需承担额外草案模型开销。研发团队采用了基于EAGLE3的软件架构(专为加速大语言模型推理设计,非GPU硬件架构)。英伟达表示,此次突破不仅巩固了其AI领域领导地位,更使Blackwell架构能高效支持Llama 4 Maverick等超大规模模型,这无疑是推动AI交互迈向更流畅、更快速时代的重要里程碑。