微软开发新技术,消除PC游戏首次启动漫长等待
阅读全文

锤刻创思寰宇网
铠侠(Kioxia)已研发出带宽达64GB/s的5TB高带宽闪存模块原型。这本质上是一种基于NAND闪存的GPU专用存储器。与HBM(高带宽存储器)相比,高带宽闪存(HBF)将相似理念应用于NAND闪存,其容量可达基于DRAM的HBM的8至16倍。通过兼顾速度与持久存储特性,HBF能够在能效更高的情况下实现对大型AI数据集的高效访问。铠侠将这类HBF模块的带宽提升至64GB/s,正是实现该能力的关键突破。
传统认知中,闪存存储通常优先考虑容量,其次才是速度。即便是当前最快的PCIe 5.0 SSD(如三星9100 Pro等14GB/s级别产品),其带宽在现代GPU和CPU面前也相形见绌。铠侠的新原型彻底颠覆了这一认知:单个闪存模块通过PCIe 6.0接口可提供5TB容量和64GB/s的持续带宽。直观来看,这比当前市面最快的PCIe 5.0驱动器快4倍以上,并逼近HBM2E单堆栈的吞吐性能。
核心创新在于系统架构的扩展方式:铠侠摒弃了由单一中央控制器管理整个NAND阵列的传统方案(随着芯片和通道数量增加,该方案会迅速成为瓶颈),转而赋予每个模块独立控制器。这些控制器紧邻NAND芯片布置,并通过菊花链拓扑相互连接。这种设计减少了串扰,规避了宽并行总线随着速度提升而日益复杂的管理难题。数据采用串联传输方式,每个链路通过PAM4信号技术实现128Gbps的传输速率。
PAM4(四电平脉冲幅度调制)相比传统NRZ信号技术可将每符号数据传输率提升一倍,但对噪声和比特错误也更敏感。为保持信号完整性,铠侠采用均衡技术、纠错机制和更强的预加重方案——这与PCIe 6.0自身要求的技术路径相似。这解释了为何选择PCIe 6.0作为主机接口:x16通道的PCIe 6.0理论双向带宽约为128GB/s,铠侠64GB/s的目标值仅占用不到一半带宽上限,为纠错和系统开销留出充足余量。
延迟性能是主要权衡点。HBM内存在数百纳秒内完成操作,近乎等同于GPU寄存器的扩展;而NAND闪存即便采用先进控制器,数据访问仍需要数十微秒,存在数量级差距。铠侠通过激进预取策略和控制器级缓存技术缓解该问题,使顺序工作负载受影响较小。虽然这不会让NAND达到DRAM的速度,但足以缩小差距——对于流式数据集、AI检查点或大规模图分析等场景,带宽的重要性远高于原始延迟。
能效是另一关键因素。铠侠宣称单个模块功耗低于40W,相比传统功耗约15W仅提供14GB/s的Gen5 SSD能效提升显著。按每瓦特带宽计算,该模块能效优势突出。这对超大规模机架意义重大:数百个驱动器可轻松消耗数千瓦功率。因H100集群而电力预算激增的AI数据中心,亟需在存储层实现节能突破。
这种模块化设计还开辟了新的系统架构可能。菊花链控制器拓扑使增加模块不会额外占用带宽,性能随容量线性扩展。16模块组可实现80TB闪存容量和超过1TB/s的吞吐量——这些数字以往仅能通过并行文件系统或DRAM暂存器实现。这使得存储能够作为近内存设备直接部署在PCIe架构中与加速器协同工作,而非被困于后端I/O系统中。
这并非铠侠首次涉足高带宽闪存领域。该公司曾实验长距离PCIe SSD和GPU点对点闪存链接,并与英伟达合作研发针对1000万IOPS优化的XL-Flash驱动器。结合其近日宣布的日本晶圆厂扩建计划(基于闪存需求到2028年预计增长近三倍的预测),可见该原型并非孤立项目,而是预示着NAND闪存未来不仅容量更大、速度更快,更将足够接近计算堆栈的核心。
目前该模块仍处于原型阶段,尚存未解难题:混合随机工作负载处理能力、纠错扩展对延迟的影响,以及AI训练场景下的实际吞吐表现。但更重要的信号是:闪存正在突破其低速深度存储的传统角色,向更高层级演进。若铠侠在其新闻稿中描绘的愿景得以实现,下一代数据中心或将见证存储模块与GPU本身竞逐带宽性能之巅。