英特尔是首家明确采用小芯片(chiplet)异构设计的公司,其面向人工智能和高性能计算应用的庞蒂韦基奥(Ponte Vecchio)计算GPU集成了47个小芯片,至今仍保持着最多芯片数量的多芯片设计纪录。然而,英特尔代工部门设想了更为极致的方案:一种多芯片封装,可集成至少16个计算单元(分布在八个基础芯片上)、24个HBM5内存堆栈,其尺寸可达市场上最大人工智能芯片的12倍(即12倍光罩尺寸,超越了台积电的9.5倍光罩尺寸)。当然,我们只能猜测此类庞然大物处理器的功耗与散热需求了。

Cover Image

英特尔的概念性2.5D/3D多芯片封装展示了16个大型计算单元(人工智能引擎或CPU),这些单元采用英特尔14A或更先进的14A-E工艺技术制造(1.4纳米级别,增强特性,第二代RibbonFET 2全环绕栅极晶体管,改进的PowerVia Direct背面供电技术)。它们位于八个(推测为光罩尺寸)计算基础芯片之上,这些基础芯片采用18A-PT工艺制造(1.8纳米级别,通过硅通孔(TSV)和背面供电技术实现性能增强),可执行额外的计算任务,或如英特尔示例所示,为“主”计算芯片配备大量SRAM缓存。

基础芯片通过Foveros Direct 3D技术与计算芯片连接,利用超高密度、间距小于10微米的铜对铜混合键合,为顶层芯片提供最大带宽和功率。英特尔Foveros Direct 3D目前是英特尔代工封装创新的顶峰,体现了极其精密的设计。

基础芯片采用EMIB-T(一种带硅通孔的增强型嵌入式多芯片互连桥技术),顶部搭载UCIe-A,用于自身之间以及与采用18A-P工艺(1.8纳米级别,性能增强)制造的I/O芯片进行横向(2.5D)互连,并连接定制基础芯片,以支持多达24个HBM5内存堆栈。

值得注意的是,英特尔提议使用顶部带有UCIe-AEMIB-T来连接定制的HBM5模块,而非采用行业标准接口的JEDEC标准HBM5堆栈,这可能是为了获得更高的性能和容量。鉴于这只是概念演示,使用定制HBM5堆栈并非设计必需,仅是展示英特尔也能集成此类器件的一种方式。

整个封装还可以支持PCIe 7.0、光引擎、非一致性互连结构、224G SerDes、用于安全等领域的专用加速器,甚至LPDDR5X内存以增加DRAM容量。

请注意,英特尔代工在X平台上发布的视频展示了两种概念设计:一种是“中等规模”设计,包含4个计算芯片和12个HBM;另一种是“极致”设计,包含16个芯片和24个HBM5堆栈,也是本文重点。即便是中等规模设计,以当今标准来看也相当先进,但英特尔目前已有能力制造。

至于极致概念设计,可能会在本年代末期出现,届时英特尔不仅将完善其Foveros Direct 3D封装技术,还将完善其18A14A生产节点。能够在本年代末生产此类极致封装,将使英特尔台积电并驾齐驱,后者也计划推出类似方案,甚至预计在2027年至2028年左右,至少部分客户将使用其晶圆级集成方案。

在未来短短几年内实现这种极致设计,对英特尔而言是一项重大挑战,因为它必须确保组件在安装到主板上时不会翘曲,并且在长时间使用后即使因过热产生微小公差也不会变形。除此之外,英特尔(乃至整个行业)还需要学会如何为尺寸堪比智能手机(最大可达10,296平方毫米)、且封装更大的庞然大物处理器供电和散热,但这又是另一个话题了。


文章标签: #英特尔 #多芯片封装 #先进封装 #人工智能芯片 #芯片制程

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。