苹果发布iPhone 17系列,搭载A19和A19 Pro芯片,首次采用自研通信芯片组
阅读全文

锤刻创思寰宇网
英伟达(Nvidia)今日宣布推出其新型鲁宾CPX(Rubin CPX)GPU,这是一款“专为满足长上下文人工智能工作负载需求而设计的定制GPU”。需注意的是,鲁宾CPX GPU并非普通鲁宾GPU,而是一款专注于最大化即将推出的维拉·鲁宾NVL144 CPX机架推理性能的人工智能加速器/GPU。
随着人工智能工作负载的发展,为其提供动力的计算架构也在同步演进。英伟达提升推理性能的新策略被称为“分解式推理”,其依赖于多种不同类型的GPU协同工作以达到峰值性能。以计算为核心的GPU将处理所谓的“上下文阶段”,而专注于内存带宽的不同芯片则处理吞吐量密集的“生成阶段”。
该公司解释称,涉及多步推理和持久性内存的尖端人工智能工作负载(如AI视频生成或代理式人工智能)受益于海量上下文信息的可用性。与训练这些模型不同,这些大型人工智能模型的推理已成为人工智能硬件发展的新前沿。
为此,鲁宾CPX GPU被设计成为分解式推理中计算密集的上下文阶段的主力,而标准的鲁宾GPU则可以处理更受内存带宽限制的生成阶段。
鲁宾CPX在英伟达新的NVFP4数据类型上可提供30 PetaFLOPs的原始计算性能,并拥有128 GB的GDDR7内存。作为对比,标准鲁宾GPU将能够达到50 PetaFLOPs的FP4计算能力,并配备288 GB的HBM4内存。
鲁宾CPX GPU的早期渲染图似乎采用了单芯片GPU设计。而鲁宾GPU将是双芯片小芯片设计;正如ComputerBase所指出的,一个标准鲁宾GPU的一半将输出25 PetaFLOPs FP4性能。这导致一些人推测鲁宾CPX是一个完整的标准鲁宾GPU中经过高度优化的单个芯片片段。
选择搭载GDDR7而非HBM4也是一种优化选择。如前所述,分解式推理工作流将在鲁宾GPU和鲁宾CPX GPU之间分割推理过程。一旦经过计算优化的鲁宾CPX为任务构建了上下文(对此,GDDR7的性能参数已足够),它就会将任务传递给鲁宾GPU进行生成阶段,该阶段受益于高带宽内存的使用。
鲁宾CPX将内置于英伟达的维拉·鲁宾NVL144 CPX机架中,该机架预计于2026年与维拉·鲁宾(Vera Rubin)一同推出。该机架将包含144个鲁宾GPU、144个鲁宾CPX GPU、36个维拉CPU(Vera CPUs)、100 TB的高速内存以及1.7 PB/s的内存带宽,预计可产生8 ExaFLOPs的NVFP4性能。这比当前一代的GB300 NVL72性能高出7.5倍,并且击败了不包含CPX的基础版维拉·鲁宾NVL144的3.6 ExaFLOPs性能。
英伟达声称,在配备鲁宾CPX的人工智能系统上投入1亿美元可转化为50亿美元的收入。预计我们将在今年3月的GTC 2026大会上英伟达的演讲中亲眼见到鲁宾、鲁宾CPX和维拉·鲁宾。