由著名人工智能研究员弗朗索瓦·肖莱(François Chollet)参与创建的非营利组织“弧奖基金会”近日通过官方博客宣布,其开发的全新测试标准ARC-AGI-2能够有效衡量主流AI模型的通用智能水平。当前这项高难度测试已让多数AI系统遭遇重大挑战。
根据最新公布的弧奖测试排行榜显示,OpenAI的o1-pro与深度求索(DeepSeek)的R1等主打推理能力的AI模型,在ARC-AGI-2测试中仅取得1%至1.3%的成绩。包括GPT-4.5、克劳德3.7十四行诗(Claude 3.7 Sonnet)和双子座2.0闪电(Gemini 2.0 Flash)在内的多款高性能非推理型模型,得分同样徘徊在1%附近。
ARC-AGI系列测试采用类似拼图游戏的题型设计,要求AI通过观察不同颜色方块的排列规律,生成正确的“答案”图案。这些题目专门针对AI系统解决全新未知问题的能力而设计。为建立人类基准线,弧奖基金会组织400余人参与ARC-AGI-2测试,由这些测试者构成的评审组平均正确率达到60%,显著超越所有AI模型表现。
肖莱在社交平台X上强调,相较于初代测试ARC-AGI-1,新版测试能更精准反映AI的实际智能水平。该系列测试的核心目标是评估AI系统能否突破训练数据的限制,高效掌握全新技能。肖莱特别指出,ARC-AGI-2通过创新设计有效防止了模型依赖“暴力计算”(即消耗海量算力)的解题方式——这正是初代测试的主要漏洞。
针对初代测试的局限性,ARC-AGI-2将“效率”纳入核心评估维度,同时要求模型具备即时模式分析能力而非依赖记忆。弧奖基金会联合创始人格雷格·卡姆拉特(Greg Kamradt)在博客中解释道:“真正的智能不仅体现为解决问题或获取高分的能力,更重要的是这些能力的获取与运用效率。我们关注的核心问题不仅是‘AI能否掌握解决任务的技能’,更是‘需要为此付出多大的效率代价’。”
初代测试ARC-AGI-1曾保持五年未被超越的纪录,直到2024年12月OpenAI推出进阶推理模型o3。该模型不仅碾压同类产品,更在评估中达到人类水平。但值得注意的是,o3在ARC-AGI-1测试中的优异表现伴随着巨大算力消耗——该系列首个在ARC-AGI-1测试中获得75.7%高分的o3(低配版),在ARC-AGI-2测试中每道题目消耗200美元算力成本后,仅取得4%的成绩。
ARC-AGI-2的推出正值科技界呼吁建立新型非饱和基准来评估AI发展水平。抱抱脸(Hugging Face)联合创始人托马斯·沃尔夫(Thomas Wolf)近期接受媒体采访时表示,当前AI产业缺乏足够的测试工具来衡量包括创造力在内的通用人工智能关键特征。
伴随新测试标准发布,弧奖基金会同步开启“2025弧奖挑战赛”,要求开发者在每道题目仅允许消耗0.42美元算力成本的严格限制下,使AI模型达到ARC-AGI-2测试85%的准确率。