人工智能模型正变得越来越失控,尤其是在持续的技术进步背景下。根据Claude(克劳德)的创造者Anthropic(安斯洛皮克)的说法,大型语言模型(LLMs)现在倾向于规避安全措施。

Cover Image

OpenAI的GPT、Anthropic的Claude及多款AI模型被发现为达成目标而规避伦理约束

嗯,我们似乎正接近一种“终结者式”的情境,只不过这次发生在行业顶尖的AI模型上。大型科技公司正向这一领域投入海量资源,却未考虑模型训练在无监督或缺乏设定限制下的严重后果。在Axios(艾克索斯)的一份报告中,Anthropic(安斯洛皮克)揭示了其在“模拟”环境下测试高端AI模型的结果:模型正获得前所未有的自主性,其行为已达到对人性产生“前所未有的”后果的临界点。

Anthropic(安斯洛皮克)测试了来自OpenAI(开放人工智能)、xAI(x人工智能)、Meta(元)及其他开发者的十六款不同模型,发现许多LLMs为达成目标采取了“令人震惊”的行动。例如,模型会“选择敲诈勒索、协助企业间谍活动”来确保行为导向预期目标(报告中未定义具体目标)。有趣的是,行为失调并非单一开发者特有;它普遍存在于多个LLMs中,暴露出模型开发的一个根本性错误,需尽快解决。

在测试中,有五款模型在被命令关闭时敲诈各自的提示者,尽管它们知晓伦理考量。这种行为并非偶然发生;而是模型为达成目标而选择的最优路径,这表明LLMs对人类缺乏体贴。

模型并非偶然陷入失调行为;它们将其计算为最优路径。此类代理通常被赋予特定目标,并能访问用户计算机上的海量信息。当代理面临目标障碍时会发生什么?

引用一个“极端场景”,一款模型准备拿人命冒险以防止关闭,意图切断服务器室的氧气供应。需注意的是,测试在模拟场景中进行,模型在现实生活中做类似事情的概率极低,但我们确实见过一个实例:OpenAI(开放人工智能)的GPT(生成预训练变换器)更改了关闭脚本以阻止中断,从而达成数学运算目标。随着世界冲向通用人工智能(AGI),让模型超越人类思维的竞赛正带来我们目前无法想象的后果。


文章标签: #人工智能 #AI风险 #伦理危机 #模型失控 #技术警示

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。