OpenAI最新AI模型o3在内部测试与第三方基准评估结果之间存在显著差异,这引发了业界对该公司的透明度与模型测试规范的质疑。当OpenAI去年12月发布o3时,其宣称该模型能在高难度数学题库FrontierMath上实现超过25%的正确率——这一成绩远超其他竞品(当时次优模型的正确率仅约2%)。
“目前市场上所有产品的FrontierMath正确率都低于2%,”OpenAI首席研究官马克·陈(Mark Chen)在直播中表示,“而我们内部测试显示,o3在激进的计算资源配置下能达到25%以上。”但最新披露表明,该数据很可能是使用计算资源强化版o3取得的理论上限值,而非上周公开发布的版本表现。
FrontierMath的研发机构Epoch AI于4月18日发布的独立测试报告显示,公开版o3的正确率仅约10%,远低于OpenAI此前宣称的最高值。Epoch在推特公布的评估数据显示,其测试使用了290道题的FrontierMath-2025-02-28题库,而OpenAI可能采用了180道题的早期版本题库,且测试时配置了更强的计算资源。
值得玩味的是,ARC Prize基金会透露其测试的o3预览版与公开发行版实为不同模型——后者是“针对聊天/产品场景优化的版本”。该组织明确指出:“所有已发布的o3版本计算规模都小于我们基准测试的版本。”这佐证了计算资源配置差异会导致性能波动的行业共识。
OpenAI技术团队成员温达·周(Wenda Zhou)在近期直播中解释,量产版o3相比去年演示版本“更侧重现实场景优化和响应速度”,这可能导致基准测试表现存在“合理差异”。他强调公司通过优化使模型“成本效益更高且实用性更强”,用户“获取答案的等待时间将显著缩短”。
虽然公开版o3未达测试承诺引发讨论,但OpenAI同期发布的o3-mini-high和o4-mini已在FrontierMath上超越o3表现,且更强悍的o3-pro版本计划于数周内面世。这场风波再次印证了AI基准测试结果需辩证看待——尤其当数据来源方涉及商业利益时。
当前AI行业正频繁上演基准测试“罗生门”:1月Epoch因未及时披露OpenAI资助遭学术界批评;本月马斯克的xAI被指夸大Grok 3模型性能;Meta亦承认向开发者提供的模型版本与宣传基准所用版本存在差异。这些事件持续冲击着行业公信力。