ACE(AI计算扩展)旨在通过提供更快的矩阵乘法性能来革新人工智能,与此同时,英特尔(Intel)AMD(AMD)正致力于为x86架构打造统一的发展路径。

去年,英特尔(Intel)AMD(AMD)合作,通过“x86生态系统咨询小组(EAG)”计划来加强x86生态系统。该计划旨在提供一套跨架构的标准化功能,使x86更易访问、更具可扩展性,并能满足未来需求。共宣布了四项关键特性:FRED、AVX10、ChkTag和ACE。

Intel-AMD-x86-scaled.jpeg

如今,英特尔(Intel)AMD(AMD)已发布ACE白皮书,让我们得以了解这项x86芯片新特性所能提供的细节。

在EAG的协助下,英特尔(Intel)AMD(AMD)通力合作,对齐并完善ACE指令集架构(ISA),为整个x86生态系统提供标准化的矩阵加速特性。这一对齐工作带来了多项积极成果:最终的架构提案融合了两家厂商的思路与贡献,以及EAG社区广泛的市场洞察。两家公司将继续在ACE和AVX10的未来路线图上展开合作,旨在拥抱人工智能及其他工作负载领域的新机遇。

x86的广泛采用与高性能使其成为开发者的理想选择;将ACE纳入ISA进一步巩固了x86生态系统的未来。在本文中,我们介绍x86 ISA的AI计算扩展(ACE)。ACE在矩阵乘法性能、可扩展性和能效方面实现了显著提升。ACE与AVX10无缝集成,为x86生态系统提供低摩擦、无处不在的矩阵加速能力。

面向x86架构的AI计算扩展(ACE)旨在显著提升矩阵乘法性能,同时提供可扩展性和能效。众所周知,矩阵乘法是AI工作负载中神经网络和大语言模型的核心模块。当前的SIMD(单指令多数据)扩展(如AVX10)能够执行矩阵乘法,但其可扩展性和计算密度受限。诸如加速矩阵乘法等技术虽能带来更高性能,但并非高效方法。

EAG旨在通过ACE解决这一问题,在加速矩阵乘法的同时提供更大的灵活性和可扩展性。ACE允许重用现有的AVX10优化,构建一个可扩展的矩阵加速框架,适用于从笔记本电脑到超级计算机的广泛实现。与将AI计算卸载到专用硬件相比,这种跨平台的可扩展性减少了开发者的摩擦。

根据白皮书,英特尔(Intel)AMD(AMD)将ACE称为“x86标准矩阵加速架构”。具体细节方面,ACE支持主流AI数据格式的原生矩阵乘法,包括INT8、OCP FP8、OCP MXFP8、OCP MXINT8和BF16。ACE还引入了基于外积运算的矩阵加速,该设计与AVX10配合使用。ACE的外积运算相比同等AVX10乘累加运算提供了16倍的计算密度优势,同时消耗相同数量的输入向量。

由于ACE是AVX10指令集的扩展,其软件支持工作正在进行中,多项集成包括:

  • 深度学习与高性能计算库,例如低精度通用矩阵乘法、大语言模型原语。

  • 流行的Python库,如NumPy和SciPy。

  • 机器学习框架,包括PyTorch和TensorFlow。

ACE只是x86前进道路上的一步。就连英伟达(NVIDIA)的CEO本人也表示,英特尔(Intel)AMD(AMD)之间的x86联盟对于维持该架构的生命力是必要的。而x86似乎正握在可靠的手中。


文章标签: #芯片 #人工智能 #英特尔 #AMD #x

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。