日本人工智能初创公司 Sakana 近日宣布,其开发的人工智能生成了一篇经过同行评审的科学论文。不过,尽管这一说法并非完全虚假,但其中仍有不少细节需要注意。
当下,关于人工智能在科学研究中作用的争议愈发激烈。许多研究人员认为,人工智能目前还无法胜任“合作科学家”的角色,而另一些人则认为人工智能具有一定的发展潜力,尽管承认其仍处于早期阶段。Sakana 正属于后者阵营。
Sakana 表示,他们利用名为 The AI Scientist-v2 的人工智能系统生成了一篇论文,并将其提交至 ICLR(一个历史悠久且声誉良好的人工智能会议)的工作坊。Sakana 声称,该工作坊的组织者以及 ICLR 的领导层都同意与该公司合作,开展一项对人工智能生成的手稿进行双盲评审的实验。
Sakana 还表示,他们与不列颠哥伦比亚大学和牛津大学的研究人员合作,向上述工作坊提交了三篇人工智能生成的论文进行同行评审。Sakana 声称,The AI Scientist-v2“端到端”生成了这些论文,包括科学假设、实验和实验代码、数据分析、可视化、文本和标题。
Sakana 的研究科学家兼创始成员罗伯特·兰格(Robert Lange)通过电子邮件向 TechCrunch 表示:“我们通过向人工智能提供工作坊的摘要和描述来生成研究想法,这确保了生成的论文符合主题且适合提交。”
在提交的三篇论文中,有一篇被 ICLR 工作坊接受——这篇论文对人工智能模型的训练技术进行了批判性审视。不过,Sakana 表示,为了透明起见并尊重 ICLR 的惯例,他们在论文发表前立即撤回了它。
“这篇被接受的论文既介绍了一种新的、有前景的神经网络训练方法,也表明仍存在一些实证挑战,”兰格说,“它提供了一个有趣的数据点,以激发进一步的科学研究。”
然而,这一成就并不像乍看起来那么令人印象深刻。在博客文章中,Sakana 承认其人工智能偶尔会犯“令人尴尬”的引用错误,例如错误地将一种方法归因于 2016 年的论文,而不是最初的 1997 年作品。
此外,Sakana 的论文并没有像其他一些同行评审出版物那样受到严格的审查。由于该公司在初步同行评审后撤回了论文,因此论文没有接受额外的“元评审”,理论上工作坊组织者可以在这一阶段拒绝它。
还有就是,会议工作坊的接受率通常高于主会议的接受率——这一事实 Sakana 在其博客文章中坦率地提到。该公司表示,其人工智能生成的研究没有一项达到 ICLR 主会议发表的内部标准。
加拿大阿尔伯塔大学的人工智能研究员、助理教授马修·古兹迪尔(Matthew Guzdial)称 Sakana 的结果“有点误导性”。他通过电子邮件表示:“Sakana 的团队从生成的论文中挑选了一些,这意味着他们在挑选他们认为可能被接受的输出时使用了人类的判断力。我认为这表明人类与人工智能结合可以发挥作用,而不是人工智能单独就能推动科学进步。”
伦敦国王学院专门从事人工智能研究的研究员迈克·库克(Mike Cook)质疑了同行评审者和工作坊的严谨性。他告诉 TechCrunch:“像这样的新工作坊通常由更年轻的学者进行评审。还值得一提的是,这个工作坊是关于负面结果和困难的——这很好,我之前也举办过类似的研讨会——但可以说,让人工智能有说服力地撰写关于失败的内容相对更容易。”
库克补充说,他并不惊讶人工智能能够通过同行评审,因为人工智能在撰写类似人类风格的散文方面表现出色。他指出,部分由人工智能生成的论文通过期刊评审并不是什么新鲜事,人工智能在科学领域引发的伦理困境也是如此。
人工智能的技术缺陷——例如其倾向于“幻觉”——让许多科学家对其用于严肃工作的可靠性持怀疑态度。此外,专家们担心人工智能最终可能只是在科学文献中制造噪音,而不是推动科学进步。
“我们需要问自己,Sakana 的结果是关于人工智能在设计和开展实验方面的能力,还是关于它在向人类推销想法方面的能力——我们知道人工智能在这方面已经很出色了,”库克说,“通过同行评审和为一个领域贡献知识之间是有区别的。”
值得称赞的是,Sakana 并没有声称其人工智能能够产生突破性——甚至特别新颖的——科学研究。该公司表示,实验的目标是“研究人工智能生成研究的质量”,并强调了制定“关于人工智能生成科学的规范”的紧迫性。
“我们需要探讨是否应该首先根据人工智能生成科学本身的优点来评判它,以避免对其产生偏见,”该公司写道,“展望未来,我们将继续与研究界交流,探讨这项技术的现状,以确保它不会发展到未来唯一的目的就是通过同行评审,从而严重削弱科学同行评审过程的意义。”