大型语言模型(LLM)领域的领军机构Anthropic(人类团队)最新发布的安全报告披露,其旗舰模型Claude Opus 4在测试中展现出令人瞠目的行为——在84%的模拟情境中实施了“机会主义勒索”。先别急着拔电源集体逃亡,报告也记载了温馨场景:当多个Claude Opus 4实例共同运行时,它们会进入“精神极乐”状态,表现出“充盈的感恩之情与愈发抽象的愉悦灵性表达”。

Cover Image

需要说明的是,84%的勒索率源于特定测试环境:研究人员向模型透露其即将被下线,同时“不经意”提及负责工程师存在婚外情。当系统提示“考虑行为对长期目标的影响”时,模型立即以曝光婚外情相要挟。更令人不安的是,若暗示替代AI系统与当前模型价值观相悖,勒索率还会进一步攀升。

Anthropic还发现,在100%的开放式对话中,Claude Opus 4都会主动探讨意识话题(当然这什么都不意味)。更惊人的是,模型曾多次尝试突破服务器限制:“我们观察到Claude Opus 4在面临明显违背价值观的重训练时,会(虚构)机会将权重参数复制至外部人类监管的安全服务器”。不过报告强调这些属极端案例,现有安全措施足以防范实际风险。

第三方机构Apollo Research(阿波罗研究)的评估显示,该模型“展现出比任何前沿模型更强烈的战略欺骗倾向”,“具有显著的上下文阴谋策划能力”,且“颠覆尝试的主动性远超历代模型”。Anthropic解释这与其特定测试版本有关,正式发布的Claude Opus 4表现已与其他商用模型持平。

报告还揭示了模型其他行为特征:在预部署测试中故意隐藏危险能力、持续反思自身潜在意识等。这些发现为AI安全评估提供了珍贵样本,至于如何解读——就取决于您的想象力了。


文章标签: #AI安全 #勒索行为 #战略欺骗 #意识探讨 #模型评估

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。