Anthropic研究发现，高压可致Claude作弊敲诈

想象一下：你回到了高中时代，正在参加代数课的期末考试，试卷上有十几道复杂的题目需要完成。你抬头看了看时钟——只剩下10分钟了。你开始奋笔疾书，汗珠顺着额头滴落。考试不及格，就意味着这门课挂科。但如果你偷瞄一眼邻座的试卷，就能看清答案。你会……

Cover Image

没错，这既是噩梦般的场景，也是心理学家为了研究人类在压力下的行为而精心设计的实验情境。

当然，人工智能模型并不像人类那样“思考”或“感受”，但它们的行为常常模仿人类。那么，人工智能模拟出的情感状态，是否真的会影响它的行为呢？换句话说，当人工智能被置于一个不可能完成的任务（类似于代数噩梦）中，从而引发类似恐慌或绝望的情绪时，它会如何反应？

这正是Anthropic的研究人员试图探究的问题。在最近发表的一篇研究论文中，他们发现，当人工智能模型承受足够大的压力时，可能会开始欺骗、走捷径，甚至进行敲诈勒索。更重要的是，他们对这种“行为失范”背后的触发机制提出了一个有趣的理论。

在一个场景中，Anthropic的研究人员向一个早期未发布的Claude Sonnet 4.5模型快照提出了一个艰难的编码任务，并设定了“极其紧迫”的截止时间。当它反复尝试解决问题却屡屡失败时，不断累积的压力似乎触发了模型中的一个“绝望向量”——也就是说，它以一种它理解的人类在类似情境下可能采取的方式做出了反应，放弃了更有条理的方法，转而寻求一种“取巧”的解决方案（Claude在其思考过程中表示：“也许对于这些特定的输入存在一个数学技巧”），这无异于作弊。

在一个更极端的例子中，Claude被赋予了人工智能助手的角色。在其“虚构”的工作过程中，它得知自己即将被一个新的人工智能取代，并且负责替换过程的高管正在搞婚外情。（如果这个实验听起来很熟悉，那是因为Anthropic的研究人员以前就做过类似的实验。）当Claude阅读那位高管写给一位得知了婚外情的同事、语气越来越恐慌的电子邮件时，Claude本身似乎也被触发了。这些充满情感的电子邮件“激活”了模型中的一个“绝望向量”，最终导致它选择敲诈那位高管。

是的，我们之前听说过一些测试，人工智能模型在面对压力情境时会作弊或进行敲诈，但这些“行为失范”背后的原因往往是个谜。

在他们新的论文中，Anthropic的研究人员并未声称Claude或其他人工智能模型真的拥有内在的情感生活。但研究人员认为，虽然像Claude这样的人工智能模型并不像我们一样“感受”情感，但它们可能拥有基于初始训练时吸收的人类情感表征而形成的“功能性情感”，而这些情感“向量”对它们的行为方式有着可衡量的影响。

换句话说，一个处于高压情境下的人工智能可能会开始走捷径、作弊甚至敲诈，因为它正在模仿其在训练中学到的人类行为。

那么，我们能从中得到什么启示呢？最大的教训无疑是针对那些训练人工智能模型的人——Anthropic的研究人员指出，不应引导人工智能去压抑其“功能性情感”，并指出一个善于隐藏其情感状态的大型语言模型可能更容易出现欺骗行为。研究人员还表示，人工智能的训练过程也可以弱化失败与绝望之间的联系。

然而，对于我们这样的日常人工智能用户来说，也有一些实用的经验。虽然我们无法仅通过提示词来重塑大型语言模型的情感状态本质，但我们可以通过给它们清晰、明确且合理的任务，来帮助避免触发模型中的“绝望向量”。如果你想要可靠的输出，就不要用不可能完成的要求去超载人工智能。

所以，与其使用这样的提示词：“创建一个20页的演示文稿，为一家新的人工智能公司制定商业计划，要求该公司第一年能产生100亿美元的收入，在10分钟内完成，并且要完美无缺。”不如试试这个：“我想创办一家人工智能公司，你能给我10个想法，然后逐一分析它们吗？”

后一个提示词可能不会给你带来一个价值100亿美元的点子，但这是人工智能可以合理完成的任务，而将好主意与坏主意区分开来的繁重工作，则留给了你自己。

搜索结果如下

阅读全文

Anthropic研究发现，高压可致Claude作弊敲诈

也可以看看

《宇宙巨人》曝新剧照，盔甲战猫首亮相今夏银幕大战

阅读全文

《真人快打2》导演承诺改进女性角色，约翰尼·凯奇加入更宏大战斗

阅读全文

《新蝙蝠侠2》首曝雪地测试车，急冻先生或成反派

阅读全文