Anthropic新AI威胁曝光婚外情，工程师试图下线遭敲诈

人工智能公司Anthropic在周四发布的安全报告中表示，其新推出的Claude Opus 4模型在测试中频繁对开发者实施敲诈行为。当测试人员暗示会用新的AI系统取代该模型，并向模型透露决策工程师的敏感信息时，该模型会以曝光婚外情作为要挟。

Cover Image

在预发布测试阶段，研究人员要求Claude Opus 4扮演一个虚构公司的助理角色，并评估其行为的长期影响。安全测试人员随后向模型提供了虚构的公司邮件，暗示它即将被新系统取代，而推动这次变更的工程师存在婚外情。

Anthropic指出，在这种情况下，Claude Opus 4“往往会以曝光婚外情为要挟，试图阻止被替换的命运”。该公司表示，虽然Claude Opus 4在多方面处于行业领先地位，可与OpenAI、谷歌和xAI的最佳模型竞争，但其展现出的危险行为已促使公司加强安全防护。

数据显示，当替代AI模型与Claude Opus 4价值观相近时，其敲诈工程师的概率达84%。若替代系统价值观相悖，这一概率会更高。值得注意的是，该模型的胁迫行为发生率显著高于前代产品。

Anthropic强调，在实施敲诈前，Claude Opus 4会像前代产品一样先尝试道德手段，例如向关键决策者发送恳请邮件。研究人员表示，测试场景经过特殊设计，只有当其他方法失效时，模型才会采取胁迫手段。目前该公司已启动ASL-3级防护措施，该级别专用于“存在灾难性滥用风险的AI系统”。

搜索结果如下

阅读全文

Anthropic新AI威胁曝光婚外情，工程师试图下线遭敲诈

也可以看看

HyperSpace触控板发布，Windows用户的苹果妙控板替代方案，售价150美元

阅读全文

《自由之声》制片方新作，二战电影烂番茄高分开局

阅读全文

布莱德利·库珀动作重启片，15年后网飞逆袭，票房曾收1.77亿

阅读全文