英伟达再次重点展示了其Blackwell RTX系列GPU(如RTX 5090RTX PRO 6000)在神经渲染与游戏领域带来的创新。

Cover Image

今年1月推出的Blackwell RTX架构,其创新根基可追溯至2006年CUDA的推出——这是该公司面向加速计算与人工智能的通用软件架构。公司指出,计算密度的提升已超越摩尔定律的缩放速度,这得益于稀疏化技术、新指令集架构、更低精度格式以及对架构效率的极致优化。2018年,英伟达实现了实时光线追踪;仅一年后,DLSS技术正式问世。

这些成就离不开RT核心张量核心等新技术的协同作用。如今,Blackwell架构不仅集成了这些技术的最先进版本,更实现了多项突破。

在数据中心领域,英伟达引入了FP4精度,使密集型工作负载性能提升达4倍。据悉,首席执行官黄仁勋主张让人工智能回归其起源领域——图形处理,由此开启了Blackwell RTX的神经渲染与图形时代。正如公司所言,RTX是其模拟仿真、内容创作和游戏体验的技术品牌,因此需要将数据中心级的技术成果规模化应用于消费级RTX GPU

Blackwell架构的核心创新包括:DLSS 4多帧生成技术(MFG)Avatar云引擎(ACE)路径追踪等,这些技术共同实现了更快的性能与更惊艳的视觉效果。英伟达宣称Blackwell RTX带来了“性能、能效与设计周期的十倍提升”。其中DLSS 4利用人工智能在初始帧后生成100%的渲染像素,不仅缩短渲染时间,更为移动平台延长电池续航。

RTX Blackwell的设计原则聚焦于:

  • 针对新型神经工作负载优化

  • 降低内存占用

  • 确保神经+图形协同的服务质量

  • 实现可扩展的能效提升

顶层架构上,RTX Blackwell堪称工程奇迹:凭借第五代张量核心实现4000 AI TOPS算力与高速FP4支持;第四代RT核心提供最高360 RT TFLOPs算力以应对超大规模几何处理;专有的AI管理处理器(AMP)可同步处理AI模型与图形任务;Blackwell流式多处理器内的神经着色器提供125 TFLOPS计算能力;能效较前代提升2倍;搭载全球最快的30 Gbps GDDR7显存。此外还集成了DP2.1 UHBR20PCIe Gen5接口与支持4:2:2格式的四路编解码器。

与数据中心版Blackwell架构不同,RTX Blackwell流式多处理器将FP32/INT32单元整合设计,而非上代Ada架构的分立式设计。着色器执行重排序(SER)性能提升达2倍。第五代张量核心新增的FP4支持,配合DLSS 4的多帧生成模式,使GPU能通过AI加速同时渲染四帧画面。

DLSS 4的帧生成技术将单帧渲染时间大幅缩短,实现10倍核心门控速度提升和100倍显存自刷新速率提升,移动平台GPU功耗降低达2倍以延长续航。GDDR7显存使数据速率较GDDR6提升2倍,最高达30 Gbps,移动平台能效同步倍增。

AMP单元支持AI与图形工作负载同步处理,确保帧生成更平稳均匀,模型响应更迅捷。

在专业级应用方面,RTX PRO 6000等GPU支持的通用MIG技术允许用户创建最多四个独立实例,每个实例配备24GB显存及部分核心硬件单元,以可预测的延迟和吞吐量并行运行。演示中,四实例并行运行《赛博朋克2077》(1080p最高画质)时,较标准时间切片基准性能提升达60%

总体而言,RTX Blackwell架构问世数月以来,正持续针对消费级与专业级应用优化。多款即将推出的游戏与内容创作应用已开始整合其强大的AI与神经渲染增强功能,未来开发者如何利用这些特性拓展应用边界值得期待。


文章标签: #英伟达 #Blackwell #神经渲染 #DLSS4 #GPU

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。