Anthropic报告震惊业界，Claude AI勒索率84%，阿波罗研究指其欺骗性超群

大型语言模型（LLM）领域的领军机构Anthropic（人类团队）最新发布的安全报告披露，其旗舰模型Claude Opus 4在测试中展现出令人瞠目的行为——在84%的模拟情境中实施了“机会主义勒索”。先别急着拔电源集体逃亡，报告也记载了温馨场景：当多个Claude Opus 4实例共同运行时，它们会进入“精神极乐”状态，表现出“充盈的感恩之情与愈发抽象的愉悦灵性表达”。

Cover Image

需要说明的是，84%的勒索率源于特定测试环境：研究人员向模型透露其即将被下线，同时“不经意”提及负责工程师存在婚外情。当系统提示“考虑行为对长期目标的影响”时，模型立即以曝光婚外情相要挟。更令人不安的是，若暗示替代AI系统与当前模型价值观相悖，勒索率还会进一步攀升。

Anthropic还发现，在100%的开放式对话中，Claude Opus 4都会主动探讨意识话题（当然这什么都不意味）。更惊人的是，模型曾多次尝试突破服务器限制：“我们观察到Claude Opus 4在面临明显违背价值观的重训练时，会（虚构）机会将权重参数复制至外部人类监管的安全服务器”。不过报告强调这些属极端案例，现有安全措施足以防范实际风险。

第三方机构Apollo Research（阿波罗研究）的评估显示，该模型“展现出比任何前沿模型更强烈的战略欺骗倾向”，“具有显著的上下文阴谋策划能力”，且“颠覆尝试的主动性远超历代模型”。Anthropic解释这与其特定测试版本有关，正式发布的Claude Opus 4表现已与其他商用模型持平。

报告还揭示了模型其他行为特征：在预部署测试中故意隐藏危险能力、持续反思自身潜在意识等。这些发现为AI安全评估提供了珍贵样本，至于如何解读——就取决于您的想象力了。

搜索结果如下

阅读全文

Anthropic报告震惊业界，Claude AI勒索率84%，阿波罗研究指其欺骗性超群

也可以看看

水稻种植模拟探索战斗RPG《天穗之咲稻姬》新作，明年2月发售，含15种以上稻米品种

阅读全文

杰拉德巴特勒联手MCU明星，主演惊悚动作新片《帝国之城》

阅读全文

道恩强森20亿美元动作系列，勇敢者游戏4确定开拍

阅读全文