来自OpenAIGoogle DeepMindAnthropic等机构的人工智能研究人员,联合多家企业和非营利组织,在周二发布的立场文件中呼吁加强对AI推理模型“思维过程”监测技术的探索。

Cover Image

OpenAI的o3和DeepSeek的R1为代表的AI推理模型,其核心特征在于“思维链”(CoTs)——这是AI模型解决问题时外化的思考过程,类似于人类在草稿纸上演算数学题的方式。作为驱动AI智能体的核心技术,论文作者认为随着AI应用日益普及和能力提升,思维链监测将成为控制AI智能体的关键手段。

“思维链监测为前沿AI安全措施提供了宝贵补充,让我们罕见地窥见AI智能体的决策过程,”研究人员在立场文件中表示,“但当前这种透明度未必能持续。我们呼吁研究界和前沿AI开发者充分利用思维链的可监测性,并研究如何维持这种特性。”

这份立场文件要求领先的AI模型开发商研究思维链“可监测性”的影响因素——即哪些条件会增强或削弱对AI模型真实推理过程的透明度。作者们指出,虽然思维链监测可能是理解AI推理模型的重要方法,但其机制可能具有脆弱性,需警惕任何可能降低透明度或可靠性的干预措施。

论文作者同时呼吁AI模型开发者追踪思维链的可监测性,研究如何将其转化为未来的安全措施。文件签署者包括:OpenAI首席研究官马克·陈(Mark Chen)Safe Superintelligence首席执行官伊利亚·苏茨克沃(Ilya Sutskever)、诺贝尔奖得主杰弗里·辛顿(Geoffrey Hinton)Google DeepMind联合创始人肖恩·莱格(Shane Legg)等业界领袖。第一作者团队来自英国AI安全研究所和Apollo Research,其他签署者则来自METR亚马逊Meta加州大学伯克利分校

这份文件的发布标志着AI行业领军者在安全研究领域罕见的团结姿态。当前科技公司正陷入白热化竞争——Meta不惜以百万美元待遇从OpenAIGoogle DeepMindAnthropic挖角顶尖研究人员,其中构建AI智能体和推理模型的专家尤其抢手。

“我们正处于这个关键时刻:思维链技术刚刚出现,它看起来很有用,但如果人们不集中精力研究,几年后可能就会消失,”参与论文撰写的OpenAI研究员鲍文·贝克(Bowen Baker)接受采访时表示,“发布这样的立场文件,在我看来是在为这个领域争取更多研究关注。”

OpenAI于2024年9月公开首款AI推理模型o1的预览版。随后数月内,科技行业迅速推出具有相似能力的竞品,其中Google DeepMindxAIAnthropic的某些模型在基准测试中展现出更优异的表现。

然而业界对AI推理模型的工作原理仍知之甚少。虽然过去一年AI实验室在提升性能方面成绩斐然,但这并未转化为对其推理机制的深入理解。

Anthropic在AI模型“可解释性”研究领域处于领先地位。今年早些时候,其首席执行官达里奥·阿莫代(Dario Amodei)宣布承诺在2027年前揭开AI模型“黑箱”,并加大可解释性研究投入,同时呼吁OpenAIGoogle DeepMind加强该领域研究。

Anthropic的早期研究表明,思维链可能无法完全可靠地反映模型的实际推理过程。与此同时,OpenAI研究人员认为思维链监测未来或将成为追踪AI模型对齐性与安全性的可靠方法。

此类立场文件旨在推动像思维链监测这样的新兴研究领域获得更多关注。OpenAIGoogle DeepMindAnthropic等公司虽已开展相关研究,但这份文件或将促进该领域获得更多资金和学术投入。


文章标签: #AI安全 #思维链 #OpenAI #DeepMind #可解释性

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。