NVIDIABlackwell GPU在AI推理性能上占据领先地位,为采用该技术的企业带来高于竞争对手的利润率。NVIDIA的全栈AI软件及优化方案在其Blackwell GPU架构上展现出卓越的推理性能,AMD仍需奋力追赶。

Cover Image

摩根士丹利研究最新数据显示,在对不同AI解决方案的推理工作负载运营成本与利润率进行比较时发现,大多数运行多芯片进行AI推理的“AI工厂”或企业利润率超过50%,其中NVIDIA处于领跑地位。

研究选取了总功率100兆瓦的AI工厂作为评估对象,这些工厂采用不同厂商的服务器机架,包括NVIDIAGoogleAMDAWS华为平台。其中NVIDIAGB200 NVL72Blackwell)GPU平台以77.6%的利润率位居榜首,预估利润约达35亿美元

GoogleTPU v6e pod以74.9%利润率位列第二,AWS Trn2 Ultraserver以62.5%位居第三。其余解决方案利润率普遍在40-50%区间,但值得注意的是AMD的数据显示其仍有较大提升空间。

AMD最新的MI355X平台在AI推理中呈现-28.2%的负利润率,较早期的MI300X平台更是达到-64.0%的负利润率。报告还按每小时芯片租赁收入(均价10.5美元)进行了细分:NVIDIAGB200 NVL72芯片每小时创收7.5美元HGX H2003.7美元位列第二,而AMDMI355X平台每小时仅产生1.7美元收入。其他芯片普遍在0.5-2.0美元区间,NVIDIA优势明显。

NVIDIA在AI推理领域的巨大优势源于其对FP4格式的支持及持续优化的CUDA AI架构。该公司对其Hopper甚至Blackwell等历代GPU的“陈酿式”优化,使得性能每个季度都能获得提升。

虽然AMDMI300MI350平台硬件表现优异,且该公司持续进行软件优化,但在AI推理等关键领域仍需加强。

摩根士丹利特别指出,MI300X平台的总拥有成本(TCO)高达7.44亿美元,与NVIDIA8亿美元GB200平台相当。而新一代MI355X服务器预估TCO5.88亿美元,与华为CloudMatrix 384持平。更高的初始成本可能是NVIDIA受欢迎的原因——在投资成本相当的情况下,其AI推理性能显著领先,据称这一优势将支撑其未来占据85%的AI市场份额。

两大巨头正以年度节奏展开竞争:NVIDIA今年将推出较Blackwell GB200性能提升50%的Blackwell Ultra GPU平台,2025年推出Rubin(计划2026年上半年投产),后续还将发布Rubin UltraFeynman;而AMD将于明年推出应对RubinMI400系列,并针对AI推理进行专项优化,预示着AI领域将迎来精彩纷呈的竞争格局。


文章标签: #英伟达 #AMD #AI推理 #GPU #利润率

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。