每个星期天,NPR(美国国家公共广播电台)的《星期天谜题》(Sunday Puzzle)节目都会迎来一位特别的出题人——《纽约时报》的填字游戏专家威尔·肖茨(Will Shortz)。在这个长期播出的节目中,他向数千名听众提出各种谜题。这些谜题虽然不需要太多背景知识就能解答,但难度却不低,即使是技艺高超的参赛者也常常觉得挑战不小。
正是因为这种难度,一些专家认为,《星期天谜题》的谜题可以成为测试人工智能解决问题能力极限的有效工具。
最近,一个由来自卫斯理学院(Wellesley College)、奥柏林学院(Oberlin College)、德克萨斯大学奥斯汀分校(University of Texas at Austin)、东北大学(Northeastern University)、查尔斯大学(Charles University)以及初创公司Cursor的研究人员组成的团队,利用《星期天谜题》中的谜题创建了一个人工智能基准测试。他们发现,即使是像OpenAI的o1这样的推理模型,有时也会“放弃”,并给出它们明知不正确的答案。
“我们想开发一个基准测试,其中的问题只需一般知识,人类就能理解。”东北大学计算机科学系教员、该研究的共同作者之一阿俊·古哈(Arjun Guha)在接受媒体采访时表示。
目前,人工智能行业正面临一个基准测试的困境。大多数用于评估人工智能模型的常用测试都在探测一些与普通用户无关的技能,比如在博士级别的数学和科学问题上的能力。与此同时,许多基准测试——即使是最近发布的——也正迅速接近饱和点。
《星期天谜题》的优势在于,它不测试冷门知识,而且这些挑战的措辞使得模型无法依靠“死记硬背”来解答。古哈解释说:“我认为这些问题之所以难,是因为在你解开问题之前,很难在问题上取得实质性进展——只有在解开问题时,一切才会突然豁然开朗。这需要洞察力和排除法的结合。”
当然,没有一个基准测试是完美的。《星期天谜题》以美国为中心,且仅限英语。而且由于这些问答是公开可用的,因此有可能训练这些模型的开发者会利用它们“作弊”,尽管古哈表示他没有看到这方面的证据。 “每周都会发布新的问题,我们可以期待最新的问题确实是从未见过的。”古哈补充说,“我们打算保持基准测试的新鲜感,并跟踪模型性能随时间的变化。”
在研究人员的基准测试中,包含大约600个《星期天谜题》的谜题。结果显示,推理模型如o1和DeepSeek的R1远远超过了其他模型。推理模型在给出结果之前会彻底进行事实核查,这有助于它们避免通常会绊倒人工智能模型的一些陷阱。不过,代价是推理模型需要更长时间才能得出答案——通常多出几秒到几分钟。 有趣的是,至少有一个模型,DeepSeek的R1,在一些《星期天谜题》的问题上给出了它明知是错误的答案。R1会直接说“我放弃了”,然后给出一个似乎是随机选择的错误答案。这种行为让人不禁联想到人类在面对难题时的无奈之举。
这些模型还会做出其他奇怪的选择,比如给出一个错误答案后立即收回,试图找出一个更好的答案,但又再次失败。它们还会陷入“思考”的困境,给出毫无意义的答案解释,或者在一开始就得出正确答案,但随后又毫无明显理由地考虑其他答案。
“在难题上,R1会直说它正在‘感到沮丧’。”古哈说,“看到模型模仿人类可能会说的话,这很有趣。目前还不清楚推理中的‘沮丧’如何影响模型结果的质量。”
目前在基准测试中表现最好的模型是o1,得分为59%,其次是最近发布的o3-mini,设置为高“推理努力”(47%)。(R1得分35%。)下一步,研究人员计划将测试扩展到更多的推理模型,他们希望这有助于识别这些模型可能需要改进的领域。
“你不需要博士学位就能擅长推理,因此应该可以设计出不需要博士学位知识的推理基准测试。”古哈说,“一个更广泛的基准测试可以让更广泛的科研人员理解并分析结果,这可能会在未来带来更好的解决方案。此外,随着最先进的模型越来越多地被部署在影响每个人的应用场景中,我们相信每个人都应该能够直观地了解这些模型能做什么——以及不能做什么。”