围绕人工智能的新闻报道几乎总是聚焦于那些动辄数千亿美元的交易,或是GPU及数据中心领域的最新硬件进展。然而,基准测试工作几乎完全集中在芯片性能上,这正是SemiAnalysis公司希望通过其开源的InferenceMax AI基准测试套件解决的问题。该套件在实际推理场景(即AI模型实际“运行”而非训练时)中测量AI软件栈众多组件的效率,并在InferenceMax实时仪表板上公布结果。

Cover Image

InferenceMax基于Apache 2.0许可证发布,以滚动更新的方式测量数百种AI加速器硬件与软件组合的性能,每晚通过最新版软件获取新结果。正如项目所述,现有基准测试都是在固定时间点进行的,未必能展现当前版本的真正能力,也无法清晰呈现整个AI软件栈(包括驱动程序、内核、框架、模型等组件)在软件演进过程中的进步(甚至倒退)。

这套基准测试旨在尽可能保持中立并模拟真实应用场景。InferenceMax的指标不仅关注绝对性能,更致力于找到项目方最关心的核心数据:TCO(总拥有成本),以每百万token的美元成本计算。简而言之,“token”是生成式AI数据的计量单位。基础性能指标包括每秒每GPU处理的token数和每秒每用户处理的token数,具体数值会随实时处理的请求量动态变化。

根据“快、大、便宜不可兼得”的传统法则,要实现高吞吐量(以tok/s/gpu衡量),即最优GPU使用率,最佳方式是通过同时服务多用户来实现——因为LLM推理依赖矩阵乘法运算,批量处理请求能显著提升效率。然而,同时处理过多请求会降低GPU对单个请求的响应速度,因此要获得更快的输出(例如在聊天机器人对话中)就需要提升交互性(以tok/s/user衡量),但这会牺牲吞吐量。举个例子,如果你曾见过ChatGPT像口吃般断断续续响应,那就是吞吐量设置过高而交互性不足的典型表现。

在这种“金发姑娘原则”场景中,通用配置需要在这两个指标间找到完美平衡点。理想配置位于帕累托前沿曲线上——这是吞吐量与交互性关系图中的特定区域,下图直观展示了这一概念。由于GPU采购需按每小时成本(考虑设备价格与功耗)计算,最快GPU未必是最佳选择,最高效的才是。

InferenceMax指出,高交互性场景的成本高于高吞吐量场景,但潜在利润也可能更高,因为能同时服务更多用户。对服务提供商而言,唯一关键的指标就是TCO(每百万token成本)。该项目试图通过多种场景(包括采购持有GPU与租赁方案)来估算这个数字。

需要强调的是,如果忽略具体指标和预期使用场景,仅查看某个GPU及其配套软件栈的性能图表,无法判断最佳选择。此外,InferenceMax还应展示软件栈(非芯片)变更如何影响上述所有指标及TCO

作为实际案例,InferenceMax发现AMD的MI335XTCO方面其实可与英伟达的B200抗衡,尽管后者速度更快。另一方面,AMD的FP4(4位浮点格式)内核仍有改进空间,因为依赖这种运算的场景/模型目前主要仍是英伟达芯片的优势领域。

在1.0版本中,InferenceMax支持测试英伟达的GB200、NVL72、B200、H200和H100加速器,以及AMD的Instinct MI355X、MI325X和MI300X。项目方表示未来数月将增加对谷歌张量处理单元AWS Trainium的支持。所有基准测试均通过GitHub Action运行器每夜执行。AMD英伟达均被要求提供实际环境中的GPU与软件栈配置集——因为这些配置存在数千种调优方案。

谈及厂商合作,InferenceMax特别感谢来自主要供应商和多家云服务商的众多参与者,有人甚至通宵修复漏洞。该项目还发现了英伟达AMD系统配置中的多个缺陷,反映出AI加速方案部署进程的急速推进。

这些合作推动了AMD的ROCm(对应英伟达CUDA)的补丁开发。InferenceMax建议AMD应重点优化默认配置,据反馈现有参数调优过于复杂。在英伟达方面,项目组在新发布的Blackwell驱动程序上遇到阻力,在快速连续启停实例的基准测试中出现了初始化/终止相关的故障。

若您对该领域有浓厚兴趣,强烈建议阅读InferenceMax的技术公告与详细报告。其行文风趣幽默,生动记述了攻克技术难题的全过程。


文章标签: #AI基准测试 #软件栈效率 #总拥有成本 #推理性能 #硬件评测

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。