去年12月OpenAI发布具备“推理能力”的o3人工智能模型时,曾与ARC-AGI基准测试的创建机构合作,试图展示该模型的卓越性能。然而数月后测试结果显示,其实际表现较最初公布的数据有所下降。
近期维护ARC-AGI基准测试的Arc Prize基金会更新了关键数据:针对测试中表现最优的o3 high配置,原先估算解决单个ARC-AGI问题的成本约为3000美元,最新评估显示实际成本可能高达每项任务3万美元。
这项修正具有重要启示意义,暴露出当前尖端AI模型在某些专项任务上可能产生的惊人开支——至少在技术发展初期阶段如此。虽然OpenAI尚未公布o3的正式定价与发布日期,但Arc Prize基金会认为其现有产品o1-pro的定价具有参考价值,值得注意的是o1-pro正是该公司目前定价最高的模型。
“考虑到测试阶段的计算资源消耗规模,我们认为o1-pro的定价更能反映o3的真实成本。”Arc Prize基金会联合创始人迈克·诺普(Mike Nop)向TechCrunch解释,“这仍是基于现有数据的估算结果。我们在排行榜中将o3标注为预览版,正是为了体现其定价的不确定性。”
从技术参数来看,o3 high配置的高昂成本并不意外。据披露,该版本在应对ARC-AGI测试时所需的计算资源,是基础版o3 low配置的172倍。这为成本估算差异提供了技术层面的解释。
市场传闻方面,关于OpenAI计划推出高价企业服务的消息已持续发酵。今年3月初《The Information》曾报道,该公司可能针对专业级AI“智能体”(如软件开发智能体)收取每月高达2万美元的服务费。
尽管有观点认为即使最昂贵的AI模型成本也低于人类员工薪酬,但AI研究员托比·奥德(Toby Ord)在X平台指出,这类模型的效率表现值得商榷。以o3 high为例,其在ARC-AGI测试中需要针对每个任务进行1024次尝试才能获得最佳结果,这种运行方式显然与人类解决问题的效率存在显著差异。