英特尔发布了其Arc Pro“Project Battlematrix”解决方案的首个重要软件——LLM Scaler v1.0,带来显著改进。

Cover Image

2025年台北国际电脑展期间,英特尔随Arc Pro显卡一同公布了Project Battlematrix项目。该方案旨在为搭载多块Arc Pro显卡的推理工作站平台提供一站式解决方案。根据路线图,公司承诺在第三季度推出首个容器部署方案,包含vLLM分级和基础遥测支持,作为“推理优化”容器。如今随着LLM Scaler v1.0的发布,这一承诺终于兑现。

以下是LLM Scaler容器v1.0包含的全部功能与优化:

vLLM方面:

  • 针对长输入序列(>4K)的TPOP性能优化:在32B KPI模型上实现40K序列长度1.8倍性能提升,70B KPI模型上达4.2倍

  • 相比上一版本,8B-32B KPI模型输出吞吐量提升约10%

  • 逐层在线量化技术降低GPU显存需求

  • 实验性支持vLLM流水线并行(PP)

  • 实验性torch.compile支持

  • 实验性推测解码技术

  • 支持嵌入重排模型

  • 增强多模态模型支持

  • 最大长度自动检测

  • 数据并行支持

OneCCL基准测试工具启用

XPU管理器功能:

  • GPU功耗管理

  • GPU固件更新

  • GPU诊断

  • GPU显存带宽监测

据英特尔介绍,新软件栈遵循易用性和行业标准设计。基于Linux系统优化的新容器可通过多GPU扩展PCIe点对点数据传输实现高达80%的性能提升,同时具备企业级可靠性与可管理性功能,包括ECC纠错SRIOV虚拟化、遥测和远程固件更新等。

按照此前公布的路线图,本季度还将推出更稳定的容器版本,提供更优性能和完善的vLLM服务支持。最终在第四季度,英特尔将推出具备完整功能集的正式版本。


文章标签: #英特尔 #显卡 #AI #性能 #优化

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。