周三,SanDisk推出了一种全新的存储技术,它将3D NAND的超大容量与高带宽存储器(HBM)的极速带宽完美结合。这种名为高带宽闪存(HBF)的内存技术,能够并行访问多个高容量的3D NAND阵列,从而实现海量的带宽和容量。
SanDisk将HBF定位为人工智能推理应用的理想解决方案,因为这些应用需要高带宽、大容量,同时还要兼顾低功耗。第一代HBF可以在GPU上实现高达4TB的显存容量,未来版本的容量还将进一步提升。SanDisk还预计,这项技术未来可能会应用于手机和其他类型的设备。不过,公司尚未公布具体的发布时间。
SanDisk的存储技术首席专家阿尔珀·伊尔巴哈尔(Alper Ilkbahar)表示:“我们将这种技术称为HBF技术,以增强用于人工智能推理工作负载的HBM内存。”“我们的目标是匹配HBM内存的带宽,同时以相似的成本提供8到16倍的容量。”
从概念上讲,HBF与HBM非常相似。它通过硅通孔(TSV)技术将多个高容量、高性能的闪存核心芯片堆叠在一起,并连接在逻辑芯片的上方。逻辑芯片可以并行访问闪存阵列(或更准确地说是闪存子阵列)。HBF的基础架构是SanDisk的BICS 3D NAND,采用CMOS直接键合阵列(CBA)设计,将3D NAND存储阵列键合在使用逻辑工艺技术制造的I/O芯片上方。这种逻辑技术可能是实现HBF的关键。
伊尔巴哈尔说:“我们向工程师们提出了挑战,问他们还能用这种扩展能力做什么。”“他们的回答是转向一种架构,将这个庞大的阵列分成许多小阵列,并并行访问每个阵列。当你这样做的时候,你就会获得巨大的带宽。那么,我们可以用这个来构建什么?我们将构建高带宽闪存。”
传统的NAND芯片设计通常将核心NAND闪存存储阵列视为平面、页面和块。块是最小的可擦除区域,页面是最小的可写入区域。HBF似乎将芯片分成“许多小阵列”,以便它们可以同时被访问。每个子阵列(有自己的页面和块)可能都有自己的专用读写路径。尽管这类似于多平面NAND设备的工作方式,但HBF的概念似乎远远超出了它们。
目前,SanDisk表示其第一代HBF将使用16个HBF核心芯片。为了实现这样的设备,SanDisk发明了一种专有的堆叠技术,该技术具有最小的翘曲度,能够堆叠16个HBF核心芯片,并且逻辑芯片可以同时从多个HBF核心芯片访问数据。能够处理数百或数千个并发数据流的逻辑复杂性应该高于典型的固态硬盘控制器。
遗憾的是,SanDisk并未披露其HBF产品的实际性能数据,因此我们只能猜测HBF是否与原始HBM的每堆栈性能(约128GB/s)或最新的HBM3E(在Nvidia的B200中,每堆栈提供1TB/s)相匹配。
根据SanDisk提供的一个例子,八个HBF堆栈具有4TB的NAND存储容量,因此每个堆栈可以存储512GB(比一个容量为24GB的8-Hi HBM3E堆栈多21倍)。一个16层的512GB HBF堆栈意味着每个HBF核心芯片是一个256Gb的3D NAND设备,其中一些复杂的逻辑技术能够实现芯片级并行性。从16个3D NAND芯片中每秒传输数百GB的数据仍然是一个相当大的挑战,我们只能猜测SanDisk是如何实现这一点的。
我们确信的是,HBF永远不会与DRAM在每比特延迟上相匹配,这也是为什么SanDisk强调HBF产品是针对读取密集型、高吞吐量的应用,例如大规模人工智能推理数据集。对于许多人工智能推理任务来说,关键因素是在可行的成本下实现高吞吐量,而不是HBM(或其他类型的DRAM)所提供的超低延迟。因此,尽管HBF可能不会很快取代HBM,但它可能会占据一个需要高容量、高带宽、类似NAND成本但不需要超低延迟的市场位置。为了简化从HBM的过渡,HBF具有相同的电气接口,尽管有一些协议变化,但HBF不能直接与HBM兼容。
伊尔巴哈尔说:“我们尽量在机械和电气方面使其尽可能接近HBM,但主机设备需要启用一些小的协议变化。”
SanDisk没有提及写入耐久性。NAND具有有限的使用寿命,只能承受一定数量的写入操作。尽管SLC和pSLC技术比消费级固态硬盘中使用的TLC和QLC NAND具有更高的耐久性,但这会以牺牲容量和增加成本为代价。此外,NAND通常是以块为单位进行写入的,而内存则是可按位寻址的。这是另一个关键挑战。
SanDisk对HBF的未来发展有明确的规划,预计将在三代产品中逐步演进。然而,目前SanDisk的HBF仍处于开发阶段。SanDisk希望HBF能够成为一种开放标准,并建立一个开放的生态系统,因此正在组建一个由“行业专家和合作伙伴”组成的顾问委员会。