英特尔发布LLM Scaler 1.0，战斗矩阵项目迎来首更

英特尔发布了“战斗矩阵”项目（Project Battlematrix）在软件层面的首次更新。该公司全新推出的推理优化软件栈，可在配备多块Arc Pro B系列GPU的工作站中优化AI工作负载调度。该套件包含基于Linux的LLM Scaler，专为AI推理工作流设计。

Cover Image

战斗矩阵项目是英特尔聚焦人工智能的战略计划，旨在为市场提供高性能的英特尔AI工作站解决方案。该项目通过整合英特尔硬件与软件，构建出搭载多块Arc Pro B系列GPU的一体化工作站系统。相关产品将配备至强（Xeon）CPU、最多八块GPU以及最高192GB显存，定价区间为5000至10000美元。

这些系统的核心是Arc Pro B60 GPU——作为Arc B580的工作站版本，其具备更大显存并支持PCIe 5.0标准。该显卡拥有20个Xe核心、24GB GDDR6显存、160个XMX引擎，支持PCIe 5.0和多GPU协同，热设计功耗可调节（120至200瓦）。

为支持该系列工作站，英特尔验证通过了全栈容器化Linux解决方案，包含快速部署服务器所需的全套组件。LLM Scaler仅是英特尔为该方案开发的多个容器之一。

在GitHub发布的LLM Scaler 1.0版本着重实现“早期客户支持”，包含对多种AI模型的优化及新增功能特性，例如推测性解码和torch.compile支持。该版本共整合了十项优化与功能：

在320亿KPI模型上，TPOP长序列输入（40K）处理速度提升最高达1.8倍
在700亿KPI模型上，相同条件下速度提升最高达4.2倍
80亿至320亿KPI模型的输出吞吐性能提升10%

新增逐层在线量化技术以降低大语言模型的显存需求，同时加入嵌入与重排模型支持、增强多模型协同能力、最大长度自动检测、数据并行处理等功能，以及前述的推测性解码和torch.compile支持。

该版本还集成OneCLL基准测试工具，并配备具备固件更新功能的XPU管理器，可监控GPU功耗与显存带宽，同时提供诊断功能。

英特尔宣布将在第三季度末发布功能更完善的加固版LLM Scaler，完整功能集版本则计划于第四季度推出。此次1.0版本实际较原计划提前——英特尔此前承诺首期容器部署将在第三季度而非第二季度完成。开发团队表示还将继续扩展功能，包括SRIOV、VDI及可管理性软件部署等特性，均将于第四季度实现。

搜索结果如下

阅读全文

英特尔发布LLM Scaler 1.0，战斗矩阵项目迎来首更

也可以看看

异世界编辑3D动作游戏《布拉德利獾》公布，在未完成游戏世界用工具修正编辑冒险

阅读全文

诺兰新片《奥德赛》片段泄露，评价两极分化

阅读全文

光子锁存存储器问世，光学处理器缓存速度提升20倍，达60GHz

阅读全文