AMD探索堆叠L2缓存技术，未来芯片延迟更低更节能

AMD发布了一份题为“平衡延迟堆叠缓存”的研究论文（专利申请号：US20260003794A1），披露了相关技术。该论文探讨了在其未来芯片上堆叠L2缓存的方法，旨在提供相当或更优的延迟。

Cover Image

众所周知，AMD已经通过3D V-Cache技术提供了堆叠缓存，即在核心计算芯片组之上或之下增加一个额外的L3缓存层。第一代3D V-Cache堆叠在Zen计算芯片组之上，而第二代则将堆叠层置于计算芯片组下方。这些方法在原理上大体相似，都使用了堆叠缓存层。

AMD的3D V-Cache或X3D解决方案已被用于从客户端“锐龙”（Ryzen）系列到顶级数据中心产品如“霄龙”（EPYC）系列等多种芯片。在继续发展其L3 3D V-Cache技术的同时，该公司正在探索堆叠更多缓存的方法。专利表明，堆叠L2缓存可能是其下一步计划。

在其堆叠L2缓存设计中，AMD使用了一个示例进行说明：一个基础芯片连接着一个计算芯片和一个缓存芯片，然后在其上方再叠加一个计算芯片和缓存芯片。该示例使用了一个包含四个512 KB区域的缓存模块，总计2 MB的L2缓存，并配备一个CCC（缓存控制电路）。这个L2缓存复合体可以根据需要扩展，框图显示最多可达4 MB。

这种堆叠方法采用了与3D V-Cache相同的原理，通过硅通孔将L2或L3堆叠层连接到基础芯片和计算复合体上，硅通孔垂直配置在堆叠缓存系统的中心，该系统包含第一缓存芯片和第二缓存芯片。CCC负责控制数据输入和输出。

在论文中，AMD以平面1 MB L2和2 MB L2缓存配置为例。文中指出，平面配置下的1 MB L2M缓存典型延迟为14个周期，而堆叠的1 MB L2M缓存延迟为12个周期。这表明堆叠L2缓存不仅能提供更高的容量，还能实现与典型平面方案相当或更优的周期延迟。

在所描述的技术方案中，堆叠缓存系统的配置降低了访问堆叠缓存时的响应延迟，并提供了节能特性。该堆叠缓存系统提升了数据传输性能，并且比构建在单芯片上的传统平面缓存具有更低的延迟。值得注意的是，连接通孔被布置在堆叠缓存系统的中心进出。这避免了像传统平面缓存那样，为了将数据路由到距离数据输入/输出端较远的缓存部分而增加线级（也称为管道级）。

在所描述的技术中，布置在堆叠缓存系统中心的连接通孔，在堆叠芯片（例如，第一缓存芯片和至少第二缓存芯片）上的两个半部分之间创造了平衡（或相同）的延迟。例如，传统的平面1 MB L2M缓存具有14个周期的延迟，而采用所述技术实现的堆叠1 MB L2M缓存仅有12个周期的延迟。这使得可以实现比典型平面缓存更大的堆叠缓存，同时达到相同或更好的周期延迟。

因此，所描述的平衡延迟堆叠缓存方案为访问请求提供了更低的延迟，数据能更快地从数据缓存中返回。由于访问请求在更少的周期内完成，也实现了节能。例如，L2缓存无需开启那么长时间，并且能更早地从活动状态转换到空闲状态，从而节省功耗。此外，缓存芯片中的导线长度更短，这有效降低了电容并节约了功耗。由于信号在访问请求和数据返回过程中只需传输一半的距离，信号负载也相应减少。进一步地，得益于功耗降低、电容减少以及信号传输距离缩短，产生的热量也更少。

这不仅仅是延迟更优，AMD还披露堆叠L2缓存也能提供节能效果。虽然我们还需要一段时间才能在实际芯片上看到堆叠L2缓存的应用，但就像堆叠L3 3D V-Cache一样，我们有充分理由相信，未来AMD的芯片，无论是CPU还是GPU，都将集成这项技术。这仍有待观察。

搜索结果如下

阅读全文

AMD探索堆叠L2缓存技术，未来芯片延迟更低更节能

也可以看看

《堡垒之夜》大规模裁员，三款游戏模式将永久关闭

阅读全文

苹果借力谷歌Gemini，推出全新Siri应用，AI野心再起

阅读全文

盖·里奇新剧不敌R级超英，《无敌少侠》第四季登顶流媒体

阅读全文