人工智能实验室如OpenAI宣称,其具备“分步思考”能力的所谓“推理型”AI模型(例如o1系列)在物理等特定领域表现优于非推理型模型。但最新数据显示,验证这些宣称的成本高得惊人——第三方测试机构Artificial Analysis披露,仅评估OpenAI的o1推理模型在七大主流基准测试(包括MMLU-Pro、GPQA Diamond等)中的表现就耗费了2,767.05美元(19,805元人民币)。
测试数据显示:Anthropic公司最新发布的混合推理模型Claude 3.7 Sonnet评估成本为1,485.35美元(10,637元人民币),OpenAI的o3-mini-high模型测试花费344.59美元(2,467元人民币)。虽然部分小型推理模型(如OpenAI的o1-mini)测试成本仅141.22美元(1,011元人民币),但总体而言,该机构测试约12个推理模型的总支出已达5,200美元(37,236元人民币),是测试80多个非推理模型费用(2,400美元/17,184元人民币)的两倍多。
成本差异的核心在于文本生成量:推理模型在测试中产生的文本片段(token)数量呈指数级增长。OpenAI的o1模型在测试中生成超过4,400万token,是GPT-4o生成量的八倍。当前AI公司普遍采用按token计费模式,Epoch AI高级研究员让-斯坦尼斯拉斯·德南指出:“现代基准测试包含大量需要多步解决的复杂问题,例如编写执行代码、网络浏览等实际任务,这显著增加了token消耗。”
价格曲线显示:顶尖模型的单token成本持续攀升。Anthropic的Claude 3 Opus在2024年5月发布时,每百万输出token收费75美元(525元人民币);而OpenAI今年推出的GPT-4.5和o1-pro模型,价格已分别涨至150美元(1,050元人民币)和600美元(4,200元人民币)。德南认为:“虽然达到特定性能门槛的总成本确实在下降,但若要评估任一时期的顶级大模型,支出仍在增加。”
这种高昂成本正在形成行业壁垒。AI初创公司General Reasoning首席执行官罗斯·泰勒透露,其评估Claude 3.7 Sonnet模型花费了580美元(4,154元人民币),而完整运行MMLU Pro测试将超过1,800美元(12,894元人民币)。他在社交平台上尖锐指出:“当实验室投入巨额算力获取基准测试结果时,学术界根本无力复现——这还能称为科学吗?”
值得注意的是,多数AI实验室会为基准测试机构提供免费或补贴性的模型访问权限。专家警告称,这种合作模式可能影响评估公正性——即使不存在操纵行为,实验室的参与本身就会削弱评分体系的公信力。随着更多推理模型问世,Artificial Analysis预计将继续增加测试预算,这场关于AI能力的验证竞赛,正在演变为一场资源消耗战。