AMD发布了一份题为“平衡延迟堆叠缓存”的研究论文(专利申请号:US20260003794A1),披露了相关技术。该论文探讨了在其未来芯片上堆叠L2缓存的方法,旨在提供相当或更优的延迟。

Cover Image

众所周知,AMD已经通过3D V-Cache技术提供了堆叠缓存,即在核心计算芯片组之上或之下增加一个额外的L3缓存层。第一代3D V-Cache堆叠在Zen计算芯片组之上,而第二代则将堆叠层置于计算芯片组下方。这些方法在原理上大体相似,都使用了堆叠缓存层。

AMD3D V-CacheX3D解决方案已被用于从客户端“锐龙”(Ryzen)系列到顶级数据中心产品如“霄龙”(EPYC)系列等多种芯片。在继续发展其L3 3D V-Cache技术的同时,该公司正在探索堆叠更多缓存的方法。专利表明,堆叠L2缓存可能是其下一步计划。

在其堆叠L2缓存设计中,AMD使用了一个示例进行说明:一个基础芯片连接着一个计算芯片和一个缓存芯片,然后在其上方再叠加一个计算芯片和缓存芯片。该示例使用了一个包含四个512 KB区域的缓存模块,总计2 MBL2缓存,并配备一个CCC(缓存控制电路)。这个L2缓存复合体可以根据需要扩展,框图显示最多可达4 MB

这种堆叠方法采用了与3D V-Cache相同的原理,通过硅通孔将L2L3堆叠层连接到基础芯片和计算复合体上,硅通孔垂直配置在堆叠缓存系统的中心,该系统包含第一缓存芯片和第二缓存芯片。CCC负责控制数据输入和输出。

在论文中,AMD以平面1 MB L22 MB L2缓存配置为例。文中指出,平面配置下的1 MB L2M缓存典型延迟为14个周期,而堆叠的1 MB L2M缓存延迟为12个周期。这表明堆叠L2缓存不仅能提供更高的容量,还能实现与典型平面方案相当或更优的周期延迟。

在所描述的技术方案中,堆叠缓存系统的配置降低了访问堆叠缓存时的响应延迟,并提供了节能特性。该堆叠缓存系统提升了数据传输性能,并且比构建在单芯片上的传统平面缓存具有更低的延迟。值得注意的是,连接通孔被布置在堆叠缓存系统的中心进出。这避免了像传统平面缓存那样,为了将数据路由到距离数据输入/输出端较远的缓存部分而增加线级(也称为管道级)。

在所描述的技术中,布置在堆叠缓存系统中心的连接通孔,在堆叠芯片(例如,第一缓存芯片和至少第二缓存芯片)上的两个半部分之间创造了平衡(或相同)的延迟。例如,传统的平面1 MB L2M缓存具有14个周期的延迟,而采用所述技术实现的堆叠1 MB L2M缓存仅有12个周期的延迟。这使得可以实现比典型平面缓存更大的堆叠缓存,同时达到相同或更好的周期延迟。

因此,所描述的平衡延迟堆叠缓存方案为访问请求提供了更低的延迟,数据能更快地从数据缓存中返回。由于访问请求在更少的周期内完成,也实现了节能。例如,L2缓存无需开启那么长时间,并且能更早地从活动状态转换到空闲状态,从而节省功耗。此外,缓存芯片中的导线长度更短,这有效降低了电容并节约了功耗。由于信号在访问请求和数据返回过程中只需传输一半的距离,信号负载也相应减少。进一步地,得益于功耗降低、电容减少以及信号传输距离缩短,产生的热量也更少。

这不仅仅是延迟更优,AMD还披露堆叠L2缓存也能提供节能效果。虽然我们还需要一段时间才能在实际芯片上看到堆叠L2缓存的应用,但就像堆叠L3 3D V-Cache一样,我们有充分理由相信,未来AMD的芯片,无论是CPU还是GPU,都将集成这项技术。这仍有待观察。


文章标签: #AMD #缓存技术 #芯片设计 #3DV-Cache #能效提升

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。