uBlock Origin被误下架,现已重新上架Edge插件商店
阅读全文

锤刻创思寰宇网
不久前,英伟达及其合作伙伴已开始交付并部署基于该公司Blackwell Ultra架构的系统,即GB300(搭载Grace处理器)和B300(搭载x86处理器)。在近日的Hot Chips 2025大会上,该公司进一步披露了底层架构及其“Blackwell Ultra”实施方案的细节。
总体而言,基于Blackwell架构的B100/B200与基于Blackwell Ultra架构的B300图形处理器具有高度相似性。但Blackwell Ultra B300系列搭载了专为NVFP4数据格式优化的新型Tensor核心,其NVFP4密集计算性能提升高达50%,代价是牺牲了INT8和FP64性能。该系列还配备288GB HBM3E内存(前代为186GB),并正式支持与主机处理器的PCIe 6.x互联(前代为PCIe 5.0)。这些升级使热设计功耗增加200W,达到1400W。
Blackwell B200 与 Blackwell Ultra B300 是采用相同 4NP 制程工艺的双光罩尺寸 GPU,并均使用 CoWoS-L 封装技术。B200 的 FP4 计算性能为每封装 10 PFLOPs,而 B300 提升至 15 PFLOPs;其 FP8/INT6 性能从 4.5 PFLOPs 提高到 10 PFLOPs。B300 的 INT8 算力为每封装 0.319 PFLOPs,低于 B200 的 4.5 PFLOPs。
在 BF16 精度下,B200 提供 2.25 PFLOPs,B300 达到 5 PFLOPs;TF32 性能从 1.12 PFLOPs 提升至 2.5 PFLOPs。B300 的 FP32 算力为 0.083 PFLOPs,低于 B200 的 1.12 PFLOPs。B200 的 FP64/FP64 Tensor 性能为 40 TFLOPs,而 B300 为 1.39 TFLOPs。两款处理器均配备 8 堆栈 HBM3E 内存,带宽均为 8 TB/s,其中 B200 内存容量为 192GB,B300 增至 288GB。接口方面,B200 支持 PCIe 5.0(64 GB/s),B300 升级至 PCIe 6.0(128 GB/s);两者均采用 NVLink 5.0,传输速率均为 200 GT/s。B200 热设计功耗为 1200W,B300 为 1400W,且两者均集成 72 核 Grace 处理器。
当英伟达于2024年初首次发布Blackwell处理器时,就披露其全部支持FP4数据格式——这种格式对人工智能推理和预训练均具有实用价值。FP4是保持与IEEE 754标准兼容的最小格式(1位符号位、2位指数位、1位尾数位),比INT4(仅4位原始比特)更具灵活性,同时比FP8或FP16格式所需计算能力更少。但需要强调的是,Blackwell与Blackwell Ultra采用的并非标准FP4,而是英伟达专属的NVFP4格式。
NVFP4是英伟达为其Blackwell处理器设计的定制化4位浮点格式,旨在提升训练与推理工作负载的能效。该格式通过紧凑编码与多级缩放相结合,在实现接近BF16精度的同时,显著提升性能并降低内存使用,使其特别适用于训练和推理场景。
与传统FP4类似,英伟达的NVFP4采用紧凑的E2M1布局(1位符号位、2位指数位、1位尾数位),数值范围约在-6至+6之间。为解决这种小格式的动态范围限制,英伟达增加了双缩放机制:每组16个FP4值分配一个存储在FP8(E4M3)中的缩放因子,同时整个张量应用基于FP32的全局因子。英伟达表示,这种双层系统在保持四位数据性能优势的同时,有效控制了数值噪声。
在精度方面,英伟达内部测试表明,相较于FP8格式,NVFP4的偏差通常低于1%。在许多工作负载中,由于更小的数据块能更紧密地适配数值分布,性能反而得到提升。内存需求也显著降低:比FP8降低约1.8倍,比FP16降低高达3.5倍,从而大幅减少NVLink和NVSwitch架构的存储与数据移动开销。对于构建大型集群的开发者而言,这意味着可在不超出硬件限制的前提下运行更大批处理量和更长序列。
英伟达多数关于Blackwell数据中心图形处理器的宣传材料都展示了B200和B300处理器相比前代产品在推理方面的强劲性能。基于OpenAI GPT-OSS 120B模型的测试显示,B200 Blackwell图形处理器的交互速度提升高达4倍,且吞吐量毫无损失。在GB200 NVL72机架上部署DeepSeek-R1 671B模型时,单处理器吞吐量据称提升2.5倍,而推理成本并未增加。随着对快速推理模型的需求日益增长(其中词元延迟与整体容量同等关键),Blackwell架构正展现出其价值——前提是英伟达的声明在实际应用中得到验证。
值得注意的是,NVFP4不仅限于推理场景:英伟达将其定位为首个适用于万亿级词元规模预训练的4位浮点格式。使用70亿参数模型对2000亿词元进行训练的早期实验表明,其结果与BF16精度相当。这得益于在反向传播和更新步骤中应用随机舍入法,而在前向传播中采用最近舍入法。因此,NVFP4不仅是推理部署的重要增强,更可能成为贯穿人工智能全生命周期的可行格式,为超大规模人工智能数据中心带来显著的成本与能源节约。
尽管NVFP4属于专有格式,英伟达正将其嵌入开源库并发布预量化模型。Cutlass(GPU内核模板)、NCCL(多GPU通信)及TensorRT模型优化器等框架均已支持NVFP4。同时,NeMo、PhysicsNeMo和BioNeMo等高级框架将该能力扩展至大语言、物理信息及生命科学模型。NVFP4还获得Nemotron推理大语言模型、Cosmos物理人工智能模型以及Isaac GR00T具视觉能力的机器人语言行动模型的支持。
仅限英伟达硬件平台且Blackwell Ultra性能提升50%,虽然NVFP4为推理和训练带来诸多优势,并正被集成到开源框架中,但目前该格式仅由英伟达支持。其他独立硬件供应商跟进支持的可能性极低,这可能降低其对开发者的吸引力(尤其是超大规模服务商),因为这些开发者致力于构建可跨多种硬件运行的模型。
英伟达意识到这一问题,强调NVFP4在众多Blackwell处理器中均获支持,不仅限于数据中心硬件。除面向服务器的B100/B200和B300处理器外,该公司用于DGX Spark设备的GB10解决方案及GeForce RTX 5090均完全支持NVFP4——但未透露所有基于GB102的产品是否皆如此。
尽管如此,仅有英伟达的B300图形处理器配备针对NVFP4优化的Tensor核心,这些核心以牺牲INT8和FP64等格式性能为代价,显著提升NVFP4性能。
除50%的NVFP4性能提升和288GB HBM3e内存外,英伟达Blackwell Ultra还是首款官方支持与主机处理器PCIe 6.x互联的数据中心图形处理器——但目前仅Grace处理器具备此能力。PCIe 6.0通过PAM4信号传输和基于FLIT的编码技术,将每x16插槽的双向带宽提升至128GB/s,这对人工智能服务器和集群至关重要。通过倍增图形处理器从中央处理器、固态硬盘或网卡获取数据的速度,PCIe 6.0显著加速整体集群性能,其重要性不容低估。虽然英伟达未披露其他PCIe 6.x相关性能增强细节,但这些改进预计将相当显著。
所有这些特性使Blackwell Ultra成为适用于人工智能和数据中心工作负载的高性能芯片,而NVFP4格式为超大规模服务商选择英伟达而非其他硬件供应商提供了又一重要理由。