负责定义行业标准内存类型规格的组织 JEDEC 即将敲定一项名为 SPHBM4 的新内存标准。该标准旨在通过利用与传统有机基板的兼容性,以“窄”512 位接口提供完整的 HBM4 级带宽、更高容量和更低的集成成本。如果这项技术取得成功,它将填补高带宽内存(HBM)可服务市场的许多空白。但正如我们将在下文中解释的那样,它不太可能成为 GDDR 内存的终结者。

尽管高带宽内存(HBM)的 1024 位或 2048 位接口提供了无与伦比的性能和能效,但此类接口会占用高端处理器内部大量宝贵的硅片面积,从而限制了每个芯片可集成的 HBM 堆栈数量,进而影响了人工智能加速器支持的内存容量。这不仅影响单个加速器的性能,也影响使用它们的大型集群的能力。
“标准”封装中的 HBM
标准封装高带宽内存(SPHBM4)通过将 HBM4 内存接口宽度从 2048 位减少到 512 位,并采用 4:1 串行化来保持相同的带宽,从而解决了这个问题。JEDEC 没有具体说明“4:1 串行化”是指将数据传输速率从 HBM4 的 8 GT/s 提高四倍,还是引入一种具有更高时钟频率的新编码方案。但目标很明确:通过 512 位接口保持 HBM4 的总带宽。
在内部,SPHBM4 封装将使用行业标准的基础芯片(可能由采用逻辑制造工艺的代工厂生产,因此成本不会更低,因为将“宽”DRAM 集成电路路由到“窄”基础芯片在密度方面可能会变得棘手,并且由于来自 DRAM 的慢速线路和来自基础芯片本身的快速线路,还会存在时钟同步挑战)。它还将使用标准的 HBM4 DRAM 芯片,这简化了控制器开发(至少在逻辑层面),并确保每个堆栈的容量与 HBM4 和 HBM4E 保持一致,每个 HBM4E 堆栈最高可达 64 GB。
从理论上讲,这意味着 SPHBM4 的内存容量将是 HBM4 的四倍。但在实践中,随着每次新工艺技术的推出,硅片面积成本变得越来越高,人工智能芯片开发商可能会在内存容量、更高的计算能力以及他们能在芯片中集成的多功能性之间取得平衡。
GDDR7 的终结者?
热心的读者可能会问,为什么不将 SPHBM4 内存用于游戏 GPU 和显卡呢?与 GDDR7 或可能采用 PAM4 编码的潜在 GDDR7X 相比,这可以在成本适度增加的情况下实现更高的带宽。
SPHBM4 旨在提供 HBM4 级带宽,其基本设计理念是优先考虑性能和容量,而非功耗和成本等其他因素。
尽管比 HBM4 或 HBM4E 便宜,但 SPHBM4 仍然需要堆叠的 HBM DRAM 芯片,这些芯片物理尺寸更大,因此比商用 DRAM 集成电路更昂贵,此外还需要接口基础芯片、硅通孔(TSV)处理、已知合格裸片流程以及先进的封装内组装。与受益于庞大的消费和游戏市场销量、简单封装和成熟的印刷电路板(PCB)组装的商用 GDDR7 相比,这些步骤主导了成本,并且在大规模生产时成本下降幅度较小。
也就是说,用单个先进的 SPHBM4 替代多个 GDDR7 芯片可能不会降低成本,反而可能增加成本。
关键在于实施细节
虽然 512 位内存总线仍然是一个复杂的接口,但 JEDEC 表示,SPHBM4 支持在传统有机基板上进行 2.5D 集成,且不需要昂贵的硅中介层,这显著降低了集成成本,并有可能扩大设计灵活性。同时,凭借行业标准的 512 位接口,与依赖 UCIe 或专有接口的 C-HBM4E 解决方案相比,SPHBM4 可以提供更低的成本(这得益于标准化带来的规模效应)。
与基于硅的解决方案相比,有机基板布线使得系统级芯片(SoC)与内存堆栈之间的电气通道长度可以更长,这可能缓解大型封装中的布局限制,并能在封装附近容纳比目前更多的内存容量。尽管如此,很难想象使用传统基板来布线 3084 位内存接口(以及数据和电源线路),但我们将拭目以待。



