人工智能革命已经到来,但与以往计算领域的变革不同,如今大多数人通过云端与最先进的人工智能模型互动。诸如ChatGPTClaudeGemini等主流服务仍基于云端运行。然而出于隐私保护、研究需求和控制权等考量,本地化运行的人工智能模型依然备受关注,如何可靠且中立地评估搭载GPUNPU的终端系统性能显得尤为重要。

Cover Image

客户端人工智能领域仍处于快速演变阶段,硬件与软件厂商正致力于界定最适合本地执行的工作负载类型及其最佳计算资源配置。为应对这一快速变化的环境,MLCommons联盟及其MLPerf Client工作组联合主流硬件软件厂商共同维护着一套客户端基准测试方案。

最新发布的MLPerf Client 1.0相较先前0.6版本实现重大升级:新增更多人工智能模型,扩大对多厂商设备硬件加速的支持范围,并拓展大语言模型用户交互场景测试。该工具还配备友好图形界面,将吸引更多普通用户参与测试。

本次升级首次支持测试MetaLlama 2 7B ChatLlama 3.1 8B Instruct模型,以及微软Phi 3.5 Mini Instruct模型。作为前瞻性探索,还包含实验性的Phi 4 Reasoning 14B模型测试,该模型具有更庞大的参数集和更强的性能表现。

MLPerf Client 1.0新增代码分析性能测试功能,以适应当前开发者普遍需求。作为实验性特性,该工具还能测量4000至8000标记的大上下文窗口内容摘要性能。多样化的模型与上下文规模为硬件测试人员提供了更全面的工作负载评估体系,其中部分实验性测试需要配备16GB显存GPU才能运行,可充分压测高端硬件性能。

客户端人工智能的软硬件生态日新月异,本地加速人工智能工作负载的方式令人目不暇接。MLPerf Client 1.0覆盖了比以往更广泛的硬件加速路径,尤其加强了对高通苹果设备的支持。主要加速路径包括:

  • 通过ONNX Runtime GenAIRyzen AI SDK支持AMD NPUGPU混合运算

  • 通过ONNX Runtime GenAI-DirectML支持AMD英特尔英伟达GPU

  • 通过OpenVINO支持英特尔NPUGPU

  • 通过Qualcomm GenieQAIRT SDK支持高通NPUCPU混合运算

  • 通过MLX支持苹果Mac GPU

1.0版本还新增以下实验性硬件执行路径:

  • 通过微软Windows MLOpenVINO支持英特尔NPUGPU

  • 通过Llama.cpp-CUDA支持英伟达GPU

  • 通过Llama.cpp-Metal支持苹果Mac GPU

最值得一提的是,MLPerf Client 1.0首次推出图形用户界面,用户可直观查看硬件支持的全部基准测试项目并轻松选择。该界面还提供系统各项硬件资源的实时监控,一目了然地显示当前执行路径是否按预期调用GPUNPU

此前版本仅支持命令行操作,新版界面将同时吸引两类用户群体:仅想简单测试GPU/NPU人工智能性能的普通用户,以及需要跨多种软硬件配置收集对比数据的专业测试人员。MLPerf Client 1.0现已在GitHub开放免费下载,建议所有关注系统人工智能性能表现的用户尝试体验。


文章标签: #人工智能 #基准测试 #硬件加速 #大模型 #本地AI

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。