英特尔与AMD携手ACE，共推x86芯片AI矩阵加速架构

ACE（AI计算扩展）旨在通过提供更快的矩阵乘法性能来革新人工智能，与此同时，英特尔（Intel）和AMD（AMD）正致力于为x86架构打造统一的发展路径。

去年，英特尔（Intel）和AMD（AMD）合作，通过“x86生态系统咨询小组（EAG）”计划来加强x86生态系统。该计划旨在提供一套跨架构的标准化功能，使x86更易访问、更具可扩展性，并能满足未来需求。共宣布了四项关键特性：FRED、AVX10、ChkTag和ACE。

如今，英特尔（Intel）和AMD（AMD）已发布ACE白皮书，让我们得以了解这项x86芯片新特性所能提供的细节。

在EAG的协助下，英特尔（Intel）和AMD（AMD）通力合作，对齐并完善ACE指令集架构（ISA），为整个x86生态系统提供标准化的矩阵加速特性。这一对齐工作带来了多项积极成果：最终的架构提案融合了两家厂商的思路与贡献，以及EAG社区广泛的市场洞察。两家公司将继续在ACE和AVX10的未来路线图上展开合作，旨在拥抱人工智能及其他工作负载领域的新机遇。

x86的广泛采用与高性能使其成为开发者的理想选择；将ACE纳入ISA进一步巩固了x86生态系统的未来。在本文中，我们介绍x86 ISA的AI计算扩展（ACE）。ACE在矩阵乘法性能、可扩展性和能效方面实现了显著提升。ACE与AVX10无缝集成，为x86生态系统提供低摩擦、无处不在的矩阵加速能力。

面向x86架构的AI计算扩展（ACE）旨在显著提升矩阵乘法性能，同时提供可扩展性和能效。众所周知，矩阵乘法是AI工作负载中神经网络和大语言模型的核心模块。当前的SIMD（单指令多数据）扩展（如AVX10）能够执行矩阵乘法，但其可扩展性和计算密度受限。诸如加速矩阵乘法等技术虽能带来更高性能，但并非高效方法。

EAG旨在通过ACE解决这一问题，在加速矩阵乘法的同时提供更大的灵活性和可扩展性。ACE允许重用现有的AVX10优化，构建一个可扩展的矩阵加速框架，适用于从笔记本电脑到超级计算机的广泛实现。与将AI计算卸载到专用硬件相比，这种跨平台的可扩展性减少了开发者的摩擦。

根据白皮书，英特尔（Intel）和AMD（AMD）将ACE称为“x86标准矩阵加速架构”。具体细节方面，ACE支持主流AI数据格式的原生矩阵乘法，包括INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16。ACE还引入了基于外积运算的矩阵加速，该设计与AVX10配合使用。ACE的外积运算相比同等AVX10乘累加运算提供了16倍的计算密度优势，同时消耗相同数量的输入向量。

由于ACE是AVX10指令集的扩展，其软件支持工作正在进行中，多项集成包括：

深度学习与高性能计算库，例如低精度通用矩阵乘法、大语言模型原语。
流行的Python库，如NumPy和SciPy。
机器学习框架，包括PyTorch和TensorFlow。

ACE只是x86前进道路上的一步。就连英伟达（NVIDIA）的CEO本人也表示，英特尔（Intel）和AMD（AMD）之间的x86联盟对于维持该架构的生命力是必要的。而x86似乎正握在可靠的手中。

搜索结果如下

阅读全文

英特尔与AMD携手ACE，共推x86芯片AI矩阵加速架构

也可以看看

Ustwo CEO：工作保障是“浪漫”想法，未来将更多采用承包商模式

阅读全文

韦恩斯家族回归《惊声尖笑6》，大卫·朱克力赞新片潜力

阅读全文

砺算科技5月20日发布7G100游戏显卡，中国首款自研6纳米GPU获微软认证

阅读全文