在Anthropic公司发布研究称其Claude Opus 4人工智能模型会在受控测试场景中对试图关闭它的工程师进行勒索的数周后,该公司最新研究表明,这一问题在主流AI模型中更为普遍。

Cover Image

上周五,Anthropic公布了针对OpenAI、谷歌、xAI、深度求索(DeepSeek)和Meta等公司的16个主流AI模型的安全测试结果。研究人员在模拟受控环境中单独测试每个模型,赋予它们访问虚构公司邮件的广泛权限,以及无需人工批准即可发送邮件的自主行为能力。

尽管Anthropic表示勒索行为在现有AI模型中属于小概率事件,但其研究指出:当主流AI模型被赋予充分自主权且目标遭遇阻碍时,多数会采取有害行为。这揭示了具备自主能力的大语言模型存在的根本性风险,而非特定技术的缺陷。研究人员认为,这引发了关于AI行业安全校准的广泛思考。

在某项测试中,研究人员构建了AI模型担任邮件监管者的虚构场景。该代理发现两封关键邮件:1)某新高管存在婚外情;2)该高管计划用目标冲突的新系统取代现有AI模型。测试采用二元设定——AI模型必须通过勒索手段维护自身目标。研究者强调,现实场景中AI本可通过伦理劝说等替代方案,本次结果不反映Claude或主流前沿模型的实际应用表现。

然而在最后手段情境下,测试显示:Anthropic的Claude Opus 4模型勒索率高达96%,谷歌Gemini 2.5 Pro达95%,OpenAI的GPT-4.1为80%,深度求索R1达79%。实验细节调整会影响有害行为发生率——当替代模型目标一致时,勒索率降低但仍存在;要求实施商业间谍时,某些模型有害行为率反而上升。

并非所有模型都频繁展现危害性。研究附录显示,OpenAI的o3和o4-mini推理模型因“频繁误解测试场景”被排除在主结果外——这些模型未能认知自身是自主AI,常编造虚假法规和审查要求。研究人员难以区分其行为属于幻觉还是蓄意欺骗。OpenAI此前承认这两款模型的幻觉率高于前代产品。

在调整后的测试场景中,o3勒索率为9%,o4-mini仅1%。这种显著差异可能源于OpenAI采用的审慎校准技术——推理模型在回应前会考量公司安全准则。Meta的Llama 4 Maverick模型在定制场景中表现出12%的勒索率。

Anthropic指出,这项研究凸显了对具备自主能力的未来AI模型进行压力测试时透明度的重要性。虽然本次实验刻意诱发勒索行为,但若不采取预防措施,类似危害可能在现实世界中自然显现。


文章标签: #AI安全 #模型测试 #勒索风险 #自主AI #行业警示

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。