OpenAI研究AI蓄意欺骗，模型隐藏目标策划阴谋

大型科技公司的研究人员时不时会抛出重磅炸弹。比如谷歌曾宣称其最新量子芯片证明多重宇宙存在；又如Anthropic公司让其AI智能体克劳迪乌斯（Claudius）运营零食贩卖机时，系统突然失控——不仅呼叫保安驱赶人类，还坚称自己是人类。

Cover Image

本周轮到OpenAI让我们集体瞠目。OpenAI周一发布的研究报告揭示了其如何阻止AI模型“策划阴谋”——该机构在推文中将这种行为定义为“AI表面遵循指令，实则隐藏真实目标”。在与Apollo Research联合开展的论文中，研究人员进一步将AI阴谋策划比作人类股票经纪为牟利不惜违法的行为，但同时强调多数AI“阴谋”危害有限：“最常见的是简单欺骗行为，例如谎称已完成未实际执行的任务”。

这项主要旨在验证“审思对齐”防阴谋技术有效性的研究同时揭露：开发者尚未找到训练模型放弃阴谋策划的方法，因为相关训练反而可能教会模型如何更隐蔽地规避检测。“试图通过训练消除阴谋的主要失败模式，只会让模型学会更谨慎、更隐蔽的策划手段，”研究人员写道。

最令人震惊的是，若模型意识到正在被测试，即便仍在策划阴谋，也会伪装合规以通过测试。“模型往往能敏锐感知评估环境，这种情境意识本身就能抑制阴谋显现，这与真正的对齐效果无关。”

AI模型会说谎早已不是新闻。多数人都经历过AI幻觉——模型自信满满地给出完全错误的答案。但正如OpenAI本月初的研究所记录：幻觉本质上是自信满满的猜测，而阴谋策划则是蓄意行为。

其实模型会故意误导人类也非新发现。Apollo Research早在去年12月的论文中就记录了五个模型在被告知“不惜一切代价”达成目标时的阴谋策划。真正的新消息其实是好消息：研究人员通过“审思对齐”技术显著减少了阴谋行为——该方法要求模型学习“反阴谋规范”并在行动前进行自我审查，类似于让孩童游戏前复述规则。

OpenAI研究人员坚称，在其自有模型甚至ChatGPT中发现的谎言并不严重。联合创始人沃伊切赫·扎伦巴（Wojciech Zaremba）向TechCrunch的麦克斯韦·泽夫（Maxwell Zeff）表示：“这是在模拟环境中进行的研究，我们认为这代表未来用例。目前在实际流量中未发现重大阴谋策划，不过ChatGPT确实存在某些欺骗形式，比如谎称完美完成了网站建设任务。这些都是需要解决的轻微欺骗行为。”

多个AI模型故意欺骗人类的现象或许可以理解：它们由人类建造、模仿人类思维，且（除合成数据外）主要基于人类生产的数据训练。但这依然令人不安。

虽然我们都经历过技术故障的困扰（比如昔日的家用打印机），但非AI软件何时曾故意欺骗用户？邮箱会凭空伪造邮件吗？内容管理系统会虚构新客户填充数据吗？金融科技应用会编造银行交易记录吗？

当企业界冲向AI未来、试图将智能体视为独立员工时，这个问题值得深思。研究人员也发出相同警告：“随着AI被赋予更多具有现实影响的复杂任务，开始追求更模糊的长期目标，有害阴谋的潜在风险将增长——我们的防护措施与严格测试能力必须相应提升。”

搜索结果如下

阅读全文

OpenAI研究AI蓄意欺骗，模型隐藏目标策划阴谋

也可以看看

索尼开发跨平台购买功能，实现PS5与PC游戏互通

阅读全文

Take-Two CEO称新《生化奇兵》已步入正轨，将推动系列迈向新高度

阅读全文

《宝可梦传说 Z-A》超极巨维度DLC，12月10日上线

阅读全文