就连《宝可梦》(Pokémon)也未能逃过AI基准测试争议。上周某社交平台上一则帖子引发热议,声称谷歌最新Gemini模型在原版《宝可梦》游戏三部曲中的表现超越了Anthropic公司的旗舰模型Claude。据报道,Gemini在某开发者的Twitch直播中已推进到紫苑镇(Lavender Town),而截至二月底Claude仍困在月见山(Mount Moon)。
但该帖子刻意回避了一个关键事实:Gemini拥有额外优势。正如Reddit用户指出的,负责Gemini直播的开发者定制了迷你地图系统,可帮助AI识别游戏中的“可交互元素”(如可砍伐的树木)。这大幅降低了Gemini在决策前分析屏幕截图的需求。
虽然《宝可梦》最多只能算是个半严肃的AI测试场景——很少有人会认为它能全面评估模型能力——但这个案例生动展示了基准测试的不同实现方式如何影响结果。例如Anthropic公司近期公布的3.7 Sonnet模型在编码能力测试SWE-bench Verified中就呈现了两个成绩:基础版本准确率62.3%,而使用该公司开发的“定制脚手架”后跃升至70.3%。
更近期的案例是,Meta公司对其新模型Llama 4 Maverick进行针对性调优,使其在特定基准测试LM Arena中表现优异,而原始版本在同一测试中成绩明显逊色。
考虑到包括《宝可梦》在内的AI基准测试本身就不够完善,各类定制化、非标准的实现方式只会让对比评估变得更困难。随着新模型不断发布,行业短期内似乎难以建立更清晰的横向比较标准。