中国半导体行业协会副理事长、清华大学教授魏少军在某行业活动中表示,国内开发的由14纳米逻辑芯片粒和基于18纳米工艺的DRAM组成的人工智能加速器,或许能与英伟达(Nvidia)采用台积电(TSMC)定制4纳米级工艺技术制造的布莱克韦尔(Blackwell)处理器相媲美。在国际固态电路峰会全球CEO峰会上发言时,魏少军指出,实现性能能效突破的关键在于用于构建国产加速器的先进3D堆叠技术。

魏少军——他此前曾表示中国在“中国制造2025”计划中设定的目标难以实现,后来呼吁国内停止使用英伟达H20等国外人工智能加速器,转而采用国产解决方案——描述了一种假设性的“完全可控的国产解决方案”,该方案将利用3D混合键合技术把14纳米逻辑芯片与18纳米DRAM相结合。目前并无证据表明此类解决方案已经存在,或者能够利用中国现有的技术构建出来,因此这番言论纯属假设。
据魏少军称,这一假设性配置旨在接近英伟达“4纳米GPU”的性能,尽管其使用的是相对过时的技术。他相信此类解决方案可提供120 TFLOPS的性能,但未透露具体精度。此外,他声称其功耗仅约60W,因此据魏少军所言,其能效比高于英特尔(Intel)的至强(Xeon)CPU。为提供对比背景:英伟达的B200处理器在1200W功耗下提供10,000 NVFP4 TFLOPS,即每瓦特8.33 NVFP4 TFLOPS。B300则提供每瓦特10.7 NVFP4 TFLOPS,这比那个尚不存在的AI加速器的假设能效高出五倍。
旨在显著提升假设中的国产AI加速器性能能效的关键技术包括3D混合键合(铜-铜键合和氧化物键合),该技术以亚10微米间距的直接铜互连取代焊料凸点,以及近内存计算。亚10微米间距的混合键合可实现每平方毫米数万至数十万的垂直连接,同时提供微米级信号路径,以实现高带宽、低延迟的互连。
3D混合键合设计的最佳范例之一是AMD的3D V-Cache,其可提供2.5 TB/s的带宽和0.05 pJ/bit的I/O能耗,因此魏少军很可能为其假设设计设想了类似的指标。每设备2.5 TB/s的带宽远高于HBM3E所能提供的水平,因此这对于依赖近内存计算概念的AI加速器而言可能是一个突破。魏少军还表示,该概念理论上可扩展至ZetaFLOPS级别的性能,尽管他并未阐明何时以及如何达到此类水平。
魏少军将英伟达的CUDA平台确定为一个关键风险,不仅对于他所描述的假设替代方案如此,对于非英伟达硬件平台亦然,因为一旦软件、模型和硬件汇聚于单一专有平台,替代处理器就难以部署。考虑到他设想近内存计算作为显著提升国内开发的AI硬件竞争力的一种途径,任何不依赖此概念的替代平台(包括华为昇腾(Ascend)系列或壁仞(Biren)GPU等国产AI加速器)都可能被视为问题。



