xAI被曝仅利用11%的英伟达GPU算力，Meta和谷歌利用率达43%至46%

据报道，xAI 仅能利用其整个英伟达（NVIDIA） GPU 机群的略高于10%的算力。一份报告指出，其 AI 软件栈优化效果不佳。

AI 软件栈瓶颈是行业普遍问题，但xAI 的情况尤为突出——这家公司仅能利用其整个英伟达（NVIDIA） GPU 安装量的11%。

信息报（The Information）报道称，埃隆·马斯克（Elon Musk）旗下的 xAI（作为 Gorq 及其他关键 AI 组件的幕后开发者）仅能利用其已安装 GPU 总容量的一小部分。

目前，xAI 运行着约55万块英伟达（NVIDIA） GPU，包括 H100 和 H200 型号。这些 GPU 部署在 xAI 位于孟菲斯（Memphis）和科洛苏斯（Colussus）的集群中，其中部分采用液冷配置。尽管比最新的 Blackwell 产品老了一代，但 xAI 部署的 GPU 规模依然令人印象深刻。

尽管数字庞大，但该公司仅能利用55万块 GPU 中的11%，相当于约6万块 GPU 在运行，而服务器中总装有50万块。那么，是什么导致了这一严重的瓶颈呢？

首先，对于小规模部署（1000至10,000块 GPU），这并非大问题。但随着服务器规模扩大并集成数十万块 GPU，空闲时间迅速累积，利用率骤降。这导致软件栈中出现若干不一致性，目前 xAI 正暴露这些问题。这不仅仅是 xAI 的个例，而是 AI 行业普遍存在的结构性问题——大规模效率的提升极其困难。

一些公司全力投入软件栈优化，能够获得超过40%的利用率（高于典型的35%至45%水平）。Meta 和谷歌（Google）就是这样的例子，它们的利用率分别达到43%和46%。

然而，对于 xAI 来说，其分布式训练网络和软件栈仍不够成熟。这导致 GPU 空闲时间更长（如上所述），并且在数据流水线和分析阶段反复出现瓶颈。

不过，xAI 计划将利用率提升至50%的目标。目前尚未公布具体时间表，但关键变化将在于基础设施和软件栈的优化。未来，xAI 可能会将其庞大的 GPU 机群提供租赁服务，同时将工作负载转移到驱动智能体 AI 需求的硬件上。

在这一点上，马斯克（Musk）正全力推进 TeraFab 项目，设计多款自研芯片作为其“AI”家族的一部分，并利用英特尔（Intel）的14A技术为未来的 xAI、太空探索技术公司（SpaceX）和其他企业创建先进解决方案。也许我们甚至将看到那几十万块 GPU 被用于创建完整的生成式 AI 游戏。

搜索结果如下

阅读全文

xAI被曝仅利用11%的英伟达GPU算力，Meta和谷歌利用率达43%至46%

也可以看看

《怒火救援》网飞剧版：更细腻展现创伤后应激障碍，超越电影版

阅读全文

美光CEO称AI仅在第一局，对更快内存需求将激增，DRAM和NAND需求将超行业半壁江山

阅读全文

PlayStation Plus隐藏一款百小时RPG，《暗黑地牢2》不容错过

阅读全文