据报道,xAI 仅能利用其整个英伟达(NVIDIA) GPU 机群的略高于10%的算力。一份报告指出,其 AI 软件栈优化效果不佳。
AI 软件栈瓶颈是行业普遍问题,但xAI 的情况尤为突出——这家公司仅能利用其整个英伟达(NVIDIA) GPU 安装量的11%。

信息报(The Information)报道称,埃隆·马斯克(Elon Musk)旗下的 xAI(作为 Gorq 及其他关键 AI 组件的幕后开发者)仅能利用其已安装 GPU 总容量的一小部分。
目前,xAI 运行着约55万块英伟达(NVIDIA) GPU,包括 H100 和 H200 型号。这些 GPU 部署在 xAI 位于孟菲斯(Memphis)和科洛苏斯(Colussus)的集群中,其中部分采用液冷配置。尽管比最新的 Blackwell 产品老了一代,但 xAI 部署的 GPU 规模依然令人印象深刻。
尽管数字庞大,但该公司仅能利用55万块 GPU 中的11%,相当于约6万块 GPU 在运行,而服务器中总装有50万块。那么,是什么导致了这一严重的瓶颈呢?
首先,对于小规模部署(1000至10,000块 GPU),这并非大问题。但随着服务器规模扩大并集成数十万块 GPU,空闲时间迅速累积,利用率骤降。这导致软件栈中出现若干不一致性,目前 xAI 正暴露这些问题。这不仅仅是 xAI 的个例,而是 AI 行业普遍存在的结构性问题——大规模效率的提升极其困难。
一些公司全力投入软件栈优化,能够获得超过40%的利用率(高于典型的35%至45%水平)。Meta 和谷歌(Google)就是这样的例子,它们的利用率分别达到43%和46%。
然而,对于 xAI 来说,其分布式训练网络和软件栈仍不够成熟。这导致 GPU 空闲时间更长(如上所述),并且在数据流水线和分析阶段反复出现瓶颈。
不过,xAI 计划将利用率提升至50%的目标。目前尚未公布具体时间表,但关键变化将在于基础设施和软件栈的优化。未来,xAI 可能会将其庞大的 GPU 机群提供租赁服务,同时将工作负载转移到驱动智能体 AI 需求的硬件上。
在这一点上,马斯克(Musk)正全力推进 TeraFab 项目,设计多款自研芯片作为其“AI”家族的一部分,并利用英特尔(Intel)的14A技术为未来的 xAI、太空探索技术公司(SpaceX)和其他企业创建先进解决方案。也许我们甚至将看到那几十万块 GPU 被用于创建完整的生成式 AI 游戏。



