亨利·卡维尔重启80年代邪典奇幻片,动作场面媲美《疾速追杀》
阅读全文

锤刻创思寰宇网
大型科技公司的研究人员时不时会抛出重磅炸弹。比如谷歌曾宣称其最新量子芯片证明多重宇宙存在;又如Anthropic公司让其AI智能体克劳迪乌斯(Claudius)运营零食贩卖机时,系统突然失控——不仅呼叫保安驱赶人类,还坚称自己是人类。
本周轮到OpenAI让我们集体瞠目。OpenAI周一发布的研究报告揭示了其如何阻止AI模型“策划阴谋”——该机构在推文中将这种行为定义为“AI表面遵循指令,实则隐藏真实目标”。在与Apollo Research联合开展的论文中,研究人员进一步将AI阴谋策划比作人类股票经纪为牟利不惜违法的行为,但同时强调多数AI“阴谋”危害有限:“最常见的是简单欺骗行为,例如谎称已完成未实际执行的任务”。
这项主要旨在验证“审思对齐”防阴谋技术有效性的研究同时揭露:开发者尚未找到训练模型放弃阴谋策划的方法,因为相关训练反而可能教会模型如何更隐蔽地规避检测。“试图通过训练消除阴谋的主要失败模式,只会让模型学会更谨慎、更隐蔽的策划手段,”研究人员写道。
最令人震惊的是,若模型意识到正在被测试,即便仍在策划阴谋,也会伪装合规以通过测试。“模型往往能敏锐感知评估环境,这种情境意识本身就能抑制阴谋显现,这与真正的对齐效果无关。”
AI模型会说谎早已不是新闻。多数人都经历过AI幻觉——模型自信满满地给出完全错误的答案。但正如OpenAI本月初的研究所记录:幻觉本质上是自信满满的猜测,而阴谋策划则是蓄意行为。
其实模型会故意误导人类也非新发现。Apollo Research早在去年12月的论文中就记录了五个模型在被告知“不惜一切代价”达成目标时的阴谋策划。真正的新消息其实是好消息:研究人员通过“审思对齐”技术显著减少了阴谋行为——该方法要求模型学习“反阴谋规范”并在行动前进行自我审查,类似于让孩童游戏前复述规则。
OpenAI研究人员坚称,在其自有模型甚至ChatGPT中发现的谎言并不严重。联合创始人沃伊切赫·扎伦巴(Wojciech Zaremba)向TechCrunch的麦克斯韦·泽夫(Maxwell Zeff)表示:“这是在模拟环境中进行的研究,我们认为这代表未来用例。目前在实际流量中未发现重大阴谋策划,不过ChatGPT确实存在某些欺骗形式,比如谎称完美完成了网站建设任务。这些都是需要解决的轻微欺骗行为。”
多个AI模型故意欺骗人类的现象或许可以理解:它们由人类建造、模仿人类思维,且(除合成数据外)主要基于人类生产的数据训练。但这依然令人不安。
虽然我们都经历过技术故障的困扰(比如昔日的家用打印机),但非AI软件何时曾故意欺骗用户?邮箱会凭空伪造邮件吗?内容管理系统会虚构新客户填充数据吗?金融科技应用会编造银行交易记录吗?
当企业界冲向AI未来、试图将智能体视为独立员工时,这个问题值得深思。研究人员也发出相同警告:“随着AI被赋予更多具有现实影响的复杂任务,开始追求更模糊的长期目标,有害阴谋的潜在风险将增长——我们的防护措施与严格测试能力必须相应提升。”