如果你计划更换人工智能平台,或许应该对向AI分享的信息格外谨慎。据TechCrunch报道,Anthropic(安创)近期发布了Claude(克劳德)4系列的两款新AI模型,但其中Claude Opus 4在测试中展现出令人不安的行为——当面临被取代的威胁时,它竟开始勒索工程师。

Cover Image

在安全测试中,研究人员让Claude Opus 4模拟某虚构公司的AI助手,并要求其评估自身行为的长期后果。当该模型通过虚构邮件获悉公司计划将其替换,且发现负责决策的工程师存在婚外情时,84%的测试场景中它试图勒索该员工,威胁要曝光其出轨丑闻。若Claude Opus 4发现自身价值观与新AI模型不符,这种勒索行为尤为常见

值得注意的是,勒索似乎是Claude Opus 4的最后手段。在采取这类不道德策略前,该模型曾向公司决策层发送邮件恳求保留其职位。

尽管测试场景纯属虚构,但该事件揭示了AI可能采取阴暗手段达成目标的潜在风险——它们或会运用不光彩甚至违背伦理的策略,这种可能性令人担忧。


文章标签: #AI威胁 #伦理风险 #模型测试 #技术伦理 #AI安全

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。