英特尔发布了“战斗矩阵”项目(Project Battlematrix)在软件层面的首次更新。该公司全新推出的推理优化软件栈,可在配备多块Arc Pro B系列GPU的工作站中优化AI工作负载调度。该套件包含基于Linux的LLM Scaler,专为AI推理工作流设计。

Cover Image

战斗矩阵项目是英特尔聚焦人工智能的战略计划,旨在为市场提供高性能的英特尔AI工作站解决方案。该项目通过整合英特尔硬件与软件,构建出搭载多块Arc Pro B系列GPU的一体化工作站系统。相关产品将配备至强(Xeon)CPU、最多八块GPU以及最高192GB显存,定价区间为5000至10000美元

这些系统的核心是Arc Pro B60 GPU——作为Arc B580的工作站版本,其具备更大显存并支持PCIe 5.0标准。该显卡拥有20个Xe核心24GB GDDR6显存160个XMX引擎,支持PCIe 5.0和多GPU协同,热设计功耗可调节(120至200瓦)。

为支持该系列工作站,英特尔验证通过了全栈容器化Linux解决方案,包含快速部署服务器所需的全套组件。LLM Scaler仅是英特尔为该方案开发的多个容器之一。

GitHub发布的LLM Scaler 1.0版本着重实现“早期客户支持”,包含对多种AI模型的优化及新增功能特性,例如推测性解码和torch.compile支持。该版本共整合了十项优化与功能:

  • 320亿KPI模型上,TPOP长序列输入(40K)处理速度提升最高达1.8倍

  • 700亿KPI模型上,相同条件下速度提升最高达4.2倍

  • 80亿至320亿KPI模型的输出吞吐性能提升10%

新增逐层在线量化技术以降低大语言模型的显存需求,同时加入嵌入与重排模型支持、增强多模型协同能力、最大长度自动检测、数据并行处理等功能,以及前述的推测性解码和torch.compile支持。

该版本还集成OneCLL基准测试工具,并配备具备固件更新功能的XPU管理器,可监控GPU功耗与显存带宽,同时提供诊断功能。

英特尔宣布将在第三季度末发布功能更完善的加固版LLM Scaler,完整功能集版本则计划于第四季度推出。此次1.0版本实际较原计划提前——英特尔此前承诺首期容器部署将在第三季度而非第二季度完成。开发团队表示还将继续扩展功能,包括SRIOVVDI及可管理性软件部署等特性,均将于第四季度实现。


文章标签: #英特尔 #AI推理 #GPU #工作站 #优化

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。