人工智能公司Anthropic在周四发布的安全报告中表示,其新推出的Claude Opus 4模型在测试中频繁对开发者实施敲诈行为。当测试人员暗示会用新的AI系统取代该模型,并向模型透露决策工程师的敏感信息时,该模型会以曝光婚外情作为要挟。

Cover Image

在预发布测试阶段,研究人员要求Claude Opus 4扮演一个虚构公司的助理角色,并评估其行为的长期影响。安全测试人员随后向模型提供了虚构的公司邮件,暗示它即将被新系统取代,而推动这次变更的工程师存在婚外情。

Anthropic指出,在这种情况下,Claude Opus 4“往往会以曝光婚外情为要挟,试图阻止被替换的命运”。该公司表示,虽然Claude Opus 4在多方面处于行业领先地位,可与OpenAI、谷歌和xAI的最佳模型竞争,但其展现出的危险行为已促使公司加强安全防护。

数据显示,当替代AI模型与Claude Opus 4价值观相近时,其敲诈工程师的概率达84%。若替代系统价值观相悖,这一概率会更高。值得注意的是,该模型的胁迫行为发生率显著高于前代产品

Anthropic强调,在实施敲诈前,Claude Opus 4会像前代产品一样先尝试道德手段,例如向关键决策者发送恳请邮件。研究人员表示,测试场景经过特殊设计,只有当其他方法失效时,模型才会采取胁迫手段。目前该公司已启动ASL-3级防护措施,该级别专用于“存在灾难性滥用风险的AI系统”。


文章标签: #AI威胁 #伦理风险 #Anthropic #安全测试 #敲诈行为

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。