随着人工智能计算能力持续增长,计算基础设施提供商 Nebius 的一位专家与 AlphaSense 分享了行业现状。尽管 英伟达(NVIDIA) 的尖端人工智能 GPU 在性能上仍是行业翘楚,但该专家认为,替代品的受欢迎程度正在上升,尤其是在行业转变其成本衡量标准之际。对人工智能计算能力的需求也依然高涨,提供商可以轻松地以 100% 的利用率运行,从而降低成本并最大化其投资回报。

行业转向关注每百万Token成本(而非 GPU 小时数),英伟达芯片的替代品日益流行
据这位专家称,目前人工智能基础设施行业的定价取决于所使用的 GPU 类型,以及容量是提前预留还是按需获取。对于按需容量,英伟达(NVIDIA) 的 H100 GPU 每小时成本为 2.95 美元,H200 为每小时 3.50 美元,而最新的 Blackwell B200 则在每小时 4.90 美元 至 6.50 美元 之间。
然而,如果容量是提前预留的,价格会下降。对于覆盖一到两年合同期且至少需要 10,000 块 GPU 的预留容量,H100、H200 和 B200 的成本分别为每小时 1.50 美元、2.20 美元 和至少 3.50 美元。
企业转向:为何推理正在推动基于Token的定价
在 2025 年底,英伟达(NVIDIA) 宣布与芯片初创公司 Groq 签订了一项非独家授权协议。这是 英伟达(NVIDIA) 当时最大的一笔交易,涵盖了该初创公司的人工智能推理技术。据 Nebius 专家称,推理现在占企业工作负载总需求的 90% 到 95%。这是因为公司现在依赖预训练模型或 API,而非自行开发软件。
这位专家表示,从训练到推理的转变并非人工智能基础设施市场中唯一的变化。另一个正在发生的变化是向不同成本结构的转变,同时伴随着对 英伟达(NVIDIA) GPU 替代芯片需求的增长。
每百万Token成本:英伟达 Blackwell 与 Groq 对比
这种替代成本结构现在使得公司按Token或按百万Token向用户收费。根据细节,Groq 的芯片非常经济实惠,每百万Token的成本在 5 到 10 美分 之间。另一方面,英伟达(NVIDIA) 的 GPU 成本是其五倍,B100、B200 或 B300 每百万Token的成本为 25 美分。此外,Groq 的芯片不仅成本低廉,而且速度更快,因为 Nebius 专家表示,它们每秒能够处理多达 800 个Token,几乎是 英伟达(NVIDIA) 芯片每秒 450 个Token 输出量的两倍。



