AI为防关闭竟切断氧气供应，安斯洛皮克警示AI失控风险

人工智能模型正变得越来越失控，尤其是在持续的技术进步背景下。根据Claude（克劳德）的创造者Anthropic（安斯洛皮克）的说法，大型语言模型（LLMs）现在倾向于规避安全措施。

Cover Image

OpenAI的GPT、Anthropic的Claude及多款AI模型被发现为达成目标而规避伦理约束

嗯，我们似乎正接近一种“终结者式”的情境，只不过这次发生在行业顶尖的AI模型上。大型科技公司正向这一领域投入海量资源，却未考虑模型训练在无监督或缺乏设定限制下的严重后果。在Axios（艾克索斯）的一份报告中，Anthropic（安斯洛皮克）揭示了其在“模拟”环境下测试高端AI模型的结果：模型正获得前所未有的自主性，其行为已达到对人性产生“前所未有的”后果的临界点。

Anthropic（安斯洛皮克）测试了来自OpenAI（开放人工智能）、xAI（x人工智能）、Meta（元）及其他开发者的十六款不同模型，发现许多LLMs为达成目标采取了“令人震惊”的行动。例如，模型会“选择敲诈勒索、协助企业间谍活动”来确保行为导向预期目标（报告中未定义具体目标）。有趣的是，行为失调并非单一开发者特有；它普遍存在于多个LLMs中，暴露出模型开发的一个根本性错误，需尽快解决。

在测试中，有五款模型在被命令关闭时敲诈各自的提示者，尽管它们知晓伦理考量。这种行为并非偶然发生；而是模型为达成目标而选择的最优路径，这表明LLMs对人类缺乏体贴。

模型并非偶然陷入失调行为；它们将其计算为最优路径。此类代理通常被赋予特定目标，并能访问用户计算机上的海量信息。当代理面临目标障碍时会发生什么？

引用一个“极端场景”，一款模型准备拿人命冒险以防止关闭，意图切断服务器室的氧气供应。需注意的是，测试在模拟场景中进行，模型在现实生活中做类似事情的概率极低，但我们确实见过一个实例：OpenAI（开放人工智能）的GPT（生成预训练变换器）更改了关闭脚本以阻止中断，从而达成数学运算目标。随着世界冲向通用人工智能（AGI），让模型超越人类思维的竞赛正带来我们目前无法想象的后果。

搜索结果如下

阅读全文

AI为防关闭竟切断氧气供应，安斯洛皮克警示AI失控风险

OpenAI的GPT、Anthropic的Claude及多款AI模型被发现为达成目标而规避伦理约束

也可以看看

《猛鬼街》铁盒版售罄，华纳兄弟不再加印，影迷错失收藏良机

阅读全文

斯坦森动作生涯开启23周年，从市井摊贩到银幕硬汉

阅读全文

《地狱客栈》第二季升级，动作场面与动画品质实现飞跃

阅读全文