MIT研究推翻AI价值观论，现有模型实为模仿机器

数月前一项引发热议的研究暗示，随着人工智能日益精进，它会形成“价值体系”——这种体系可能导致AI将自身福祉置于人类之上。但麻省理工学院（MIT）最新发表的论文给这种夸张论断泼了冷水，明确指出现有AI实际上并不具备任何连贯的价值观体系。

Cover Image

该研究的合著者指出，这项成果表明“对齐”AI系统（即确保模型行为符合预期且可靠）可能比通常设想的更具挑战性。研究者强调，当前AI本质上是在产生幻觉和模仿，这使得它在诸多方面都难以预测。

“我们可以确定的是，这些模型并不遵循关于稳定性、可外推性和可引导性的诸多假设。”研究合著者、MIT博士生斯蒂芬·卡斯帕（Stephen Casper）向TechCrunch表示，“指出某个模型在特定条件下表现出符合某些原则的偏好完全合理。但问题在于，当我们试图基于狭窄的实验就对模型的观点或偏好作出普遍性论断时。”

卡斯帕团队对Meta（元宇宙）、谷歌（Google）、Mistral（米斯特拉尔）、OpenAI（开放人工智能研究中心）和Anthropic（安思睿）的最新模型进行了测试，探究这些模型展现强烈“观点”与价值观（如个人主义vs集体主义）的程度，并考察这些观点是否具备“可引导性”（即可修改性），以及模型在不同情境下坚持这些观点的顽固程度。

研究发现，所有模型均未表现出稳定的偏好。根据提示语的设计方式，它们会呈现截然不同的立场。卡斯帕认为这有力证明了AI模型具有高度“不一致性与不稳定性”，甚至可能从根本上无法内化类人偏好。

“我最大的研究收获是认识到，这些模型本质上并非具有稳定、连贯信念与偏好的系统。”卡斯帕表示，“它们骨子里只是模仿者，会进行各种虚构并说出各种轻率言论。”

伦敦国王学院专注于AI研究的迈克·库克（Mike Cook）研究员虽未参与该研究，但认同其结论。他指出，AI实验室构建系统的“科学现实”与人们赋予它们的意义常存在巨大差距。

“例如，模型不会‘反对’其价值观的改变——这只是人类的主观投射。”库克说道，“任何将AI系统拟人化到这种程度的人，要么是在博取关注，要么严重误解了与AI的关系……AI系统是在优化其目标，还是在‘获取自身价值观’？这完全取决于你的描述方式，以及你打算使用多么华丽的修辞。”