2026年游戏开发者大会(GDC 2026)上,英特尔图形工程师玛莉莎·杜波依斯(Marissa du Bois)登台展示了英特尔版本的神经纹理压缩技术。该技术与英伟达(NVIDIA)NTC非常相似,两者都是确定性技术。此次演示是对2025年游戏开发者大会(GDC 2025)上展示的原始研发原型的后续更新,其关键进展在于英特尔现已将该项研究产品化,推出了独立的软件开发工具包(SDK)

Cover Image

纹理集神经压缩(TSNC)本质上是一种更智能的游戏纹理存储方式。传统的GPU块压缩格式(BC1BC7)使用固定的数学规则来减小纹理尺寸,虽然它们速度快且得到广泛支持,但未能充分利用压缩潜力。TSNC采用了一种根本不同的方法:它使用随机梯度下降法训练一个小型神经网络,学习对给定纹理集中的特定纹理进行编码和解码。其结果是生成一个紧凑的潜在空间表示,一个微小的多层感知器可以在运行时将其重建为原始的漫反射、法线、粗糙度、金属度、环境光遮蔽和自发光数据。

其核心洞见在于,一个纹理集(单个材质的所有PBR贴图)在其各个通道之间存在大量冗余结构。TSNC利用了这种共享结构,这是通用块压缩技术根本无法做到的。

特征金字塔:两个层级

TSNC压缩方案的核心是特征金字塔,这是一组由四个BC1编码的潜在空间纹理组成的集合,它们被排列在不同的分辨率配置中。英特尔目前提供了两种具有不同质量/压缩权衡的变体:

变体A使用两个全分辨率潜在图像和两个半分辨率潜在图像。对于4K输入纹理,这意味着两个4K和两个2K潜在图像,总计约26.8 MB,而原始的未压缩位图大小为256 MB。这相当于超过9倍的压缩率,几乎是单独使用标准BC块压缩所能达到的4.8倍压缩率的两倍。通过英伟达(NVIDIA)FLIP分析工具测量,感知质量损失大约为5%,在实际中表现为法线贴图的轻微精度损失,其他方面影响甚微。

变体B是更激进的选项。它将潜在图像级联降低至原始分辨率的1/21/41/8,实现了超过17倍的压缩率,是变体A的两倍多。然而,质量损失更为明显:BC1块状伪影开始出现在法线贴图以及AO/粗糙度通道中,FLIP测得的感知误差大约在6%至7%。这听起来绝对值可能很小,但英特尔承认这“足以让观察者注意到”。因此,变体B可能最适合用于远处或次要材质,在这些地方质量损失不太可能被仔细审视。

自去年基于PyTorch构建的研发原型以来,整个纹理集神经压缩(TSNC)压缩器已使用Slang计算着色器从头重写。此外,无论开发者是在虚幻引擎(Unreal)、自定义引擎中工作,还是在CPU上运行解压缩,相同的解压缩器代码都可以针对正确的后端。

GPU方面,英特尔现在支持微软(Microsoft)DirectX 12 Cooperative Vectors API,利用英特尔锐炫(Intel Arc)XMX矩阵核心(存在于A系列B系列 GPU上)进行硬件加速矩阵推理。对于不支持XMX的硬件,标准的FMA(融合乘加)后备方案可在CPU和非英特尔GPU上运行。

英特尔的玛莉莎·杜波依斯(Marissa du Bois)详细介绍了四种不同的部署策略,每种策略在节省磁盘空间和内存使用之间都有不同的权衡:

  • 安装时——分发压缩包,在安装过程中本地解压缩。纹理以未压缩形式存储在用户驱动器上。节省的主要是分发带宽。

  • 加载时——纹理在磁盘上保持压缩状态;在游戏加载时解压缩到显存(VRAM)中。减少了安装大小和加载期间的显存(VRAM)压力。

  • 流式传输时——与纹理流式传输结合,按需解压缩纹理。对于磁盘和内存而言是两全其美的方案,但增加了运行时推理负载。

  • 采样时——纹理在显存(VRAM)中永久保持压缩状态,并在着色器中进行逐像素解码。这是减少显存(VRAM)使用最激进的选项,具有恒定的推理成本。

开发者需要根据其特定用例和底层引擎选择其中一种。

英特尔在配备B390集成显卡Panther Lake笔记本电脑上,以完整的1080p计算着色器工作负载对推理进行了基准测试。结果如下:

  • FMA路径:每像素0.661纳秒

  • XMX线性代数路径:每像素0.194纳秒

硬件加速矩阵运算带来了3.4倍的速度提升,而且这些数字在集成显卡上也能保持,这使得逐像素采样时部署方案看起来比原先想象的更为可行。对于独立GPU,开销会更低。英特尔计划在今年晚些时候发布纹理集神经压缩(TSNC)软件开发工具包(SDK)Alpha版本,随后是Beta版和公开版本,不过这些日期尚未最终确定。


文章标签: #英特尔 #纹理压缩 #神经网络 #游戏开发 #SDK

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。