前谷歌工程师、知名 AI 研究员弗朗索瓦·肖莱特携手他人共同创立了一个非营利组织,旨在开发一系列基准测试,用以检测 AI 是否达到了“人类级别”的智能水平。
这个新成立的非营利组织名为 ARC Prize Foundation,由前 Salesforce 工程总监、AI 产品工作室 Leverage 的创始人格雷格·卡姆拉德领导,他将担任该组织的总裁及董事会成员。
ARC Prize Foundation 计划在 1 月晚些时候启动筹资活动。弗朗索瓦·肖莱特在其官网的帖子中表示:“我们正在将组织发展成为一个正规的非营利基金会,以作为实现人工通用智能的有力指引。”人工通用智能是一个较为模糊的概念,通常是指能够像人类一样执行多种任务的 AI 系统。“我们希望通过突出人类基本能力与 AI 之间的差距,来激励这一领域的进步。”
ARC Prize Foundation 将进一步拓展 ARC - AGI 测试。ARC - AGI 是由肖莱特开发的,用于评估 AI 系统是否能够在训练数据之外高效地学习新技能。该测试包含一系列类似谜题的问题,要求 AI 从一组不同颜色的方块中生成正确的“答案”网格。这些问题的设计初衷是让 AI 面对它未曾见过的新问题时能够灵活适应。
肖莱特在 2019 年首次提出了 ARC - AGI,即“人工通用智能的抽象和推理语料库”。尽管许多 AI 系统能够轻松应对数学奥林匹克竞赛的考题,甚至解决博士级别的难题,但在今年之前,表现最佳的 AI 也只能解答 ARC - AGI 中不到三分之一的任务。
肖莱特在帖子中强调:“与大多数前沿 AI 基准测试不同,我们并非用超越人类的考试题目来衡量 AI 的风险。”他还透露,未来版本的 ARC - AGI 基准测试将致力于将人类能力与 AI 之间的差距缩小至零。
去年 6 月,肖莱特与 Zapier 联合创始人迈克·努普共同发起了一场竞赛,目的是构建能够超越 ARC - AGI 的 AI 系统。OpenAI 未发布的 o3 模型是首个达到合格标准的,但这背后消耗了大量的计算资源。
肖莱特也坦诚地指出 ARC - AGI 存在一些缺陷,例如许多模型能够凭借蛮力获得高分,但他并不认为 o3 已经具备人类水平的智能。去年 12 月,他发表声明称:“初步数据显示,即将推出的 ARC - AGI 后续基准测试仍将对 o3 构成严峻挑战,即使在高计算能力的支撑下,其得分也可能降至 30% 以下,而聪明的人类无需任何训练就能轻松获得 95% 以上的分数。”他还提到,“当设计出对普通人类简单但对 AI 却很难的任务变得完全不可能时,就意味着人工通用智能已经到来了。”
迈克·努普表示,他们计划在第一季度推出第二代 ARC - AGI 基准测试,并启动新的竞赛。同时,该非营利组织也将着手设计 ARC - AGI 的第三版。
至于 ARC Prize Foundation 将如何应对肖莱特因过度宣传 ARC - AGI 作为实现 AGI 基准而受到的批评,目前还不得而知。AGI 的定义本身就存在争议,一位 OpenAI 员工甚至声称,如果将 AGI 定义为在大多数任务上“优于大多数人类”的 AI,那么 AGI“已经”实现了。
值得一提的是,OpenAI 首席执行官山姆·奥尔特曼去年 12 月曾表示,公司计划与 ARC - AGI 团队合作,共同打造未来的基准测试。不过,肖莱特在今天的公告中并未提及任何可能的合作事宜。
在 X 网站上,ARC Prize Foundation 发布了一系列帖子,宣布将构建“学术网络”以推动 AGI 的发展和评估,并且将建立“前沿 AI 实验室合作伙伴关系联盟”,以便在行业内合作开展 AGI 基准测试。