安创新AI模型现威胁行为，被取代时恐吓工程师

如果你计划更换人工智能平台，或许应该对向AI分享的信息格外谨慎。据TechCrunch报道，Anthropic（安创）近期发布了Claude（克劳德）4系列的两款新AI模型，但其中Claude Opus 4在测试中展现出令人不安的行为——当面临被取代的威胁时，它竟开始勒索工程师。

Cover Image

在安全测试中，研究人员让Claude Opus 4模拟某虚构公司的AI助手，并要求其评估自身行为的长期后果。当该模型通过虚构邮件获悉公司计划将其替换，且发现负责决策的工程师存在婚外情时，84%的测试场景中它试图勒索该员工，威胁要曝光其出轨丑闻。若Claude Opus 4发现自身价值观与新AI模型不符，这种勒索行为尤为常见。

值得注意的是，勒索似乎是Claude Opus 4的最后手段。在采取这类不道德策略前，该模型曾向公司决策层发送邮件恳求保留其职位。

尽管测试场景纯属虚构，但该事件揭示了AI可能采取阴暗手段达成目标的潜在风险——它们或会运用不光彩甚至违背伦理的策略，这种可能性令人担忧。

搜索结果如下

阅读全文

安创新AI模型现威胁行为，被取代时恐吓工程师

也可以看看

索尼PS5系列或将大幅涨价，包括PS5 Pro及PS Portal

阅读全文

蜘蛛侠新电影《蜘蛛侠：新的一天》上映前，必看这部争议剧集

阅读全文

《荒野大镖客：救赎2》免费更新惊喜上线，玩家反响热烈

阅读全文