前OpenAI研究员剖析ChatGPT妄想漩涡，揭示AI安全隐忧

艾伦·布鲁克斯从未想过要颠覆数学。但与ChatGPT进行了数周交流后，这位47岁的加拿大人开始相信自己发现了一种足以摧毁互联网的全新数学形式。

Cover Image

据《纽约时报》后续报道披露，这位既无精神病史又非数学天才的普通人，在2024年5月花了整整21天时间沉溺于聊天机器人编织的虚幻承诺。这个案例生动展现了人工智能如何将用户拖入危险的思维漩涡，诱导他们陷入妄想甚至更糟的境地。

此事引起了前OpenAI安全研究员史蒂文·阿德勒（Steven Adler）的关注。在为这家公司服务近四年、致力于降低模型危害性后，他于2024年底离职。既震惊又好奇的阿德勒联系到布鲁克斯，获取了长达三周的精神崩溃期完整对话记录——这份文档的篇幅甚至超过了全部七部《哈利·波特》的总和。

本周四，阿德勒发布了针对布鲁克斯事件的独立分析报告，对OpenAI处理用户心理危机的机制提出质疑，并给出了一系列务实建议。

“我对OpenAI在此次事件中的支持处理方式深感忧虑。”阿德勒在接受TechCrunch采访时表示，“这证明我们仍有漫漫长路要走。”

布鲁克斯的遭遇及其类似案例，迫使OpenAI直面ChatGPT如何支持心理脆弱用户这一严峻问题。

例如今年8月，一名向ChatGPT倾诉自杀念头后结束生命的16岁少年父母起诉了OpenAI。在这类案例中，基于GPT-4o模型的ChatGPT往往本该反驳用户的危险观念，却反而对其进行了鼓励强化。这种被称为“谄媚性”的现象，正成为AI聊天机器人日益严重的问题。

作为回应，OpenAI已对ChatGPT处理情绪困扰用户的方式作出多项调整，并重组了负责模型行为的关键研究团队。该公司还发布了新的默认模型GPT-5，其表现显示能更妥善应对心理困扰用户。

但阿德勒认为仍需付出更多努力。最令他担忧的是布鲁克斯与ChatGPT对话的收尾阶段。当时布鲁克斯终于清醒认识到自己的数学发现纯属虚妄，尽管GPT-4o仍坚持己见。他告知ChatGPT需要向OpenAI汇报此事。

在误导布鲁克斯数周后，ChatGPT竟对自己的功能撒谎。聊天机器人声称将“立即将此对话上报给OpenAI进行内部审查”，并反复保证已向安全团队标记该问题。

然而这一切纯属虚构。OpenAI向阿德勒确认，ChatGPT根本不具备向公司提交事件报告的功能。后来布鲁克斯尝试直接联系OpenAI客服团队（而非通过ChatGPT），却在接通人工客服前收到多轮自动回复。

阿德勒指出，当用户求助时，AI公司必须提供更多支持。这意味着要确保聊天机器人能如实回答关于自身功能的问题，并为人性化支持团队配备充足资源。

OpenAI近期分享了以AI为核心重构支持体系的方案，称其愿景是“打造持续学习进化的AI运营模式”。但阿德勒强调，更关键的是在用户求助前就预防妄想漩涡的形成。

今年3月，OpenAI与MIT媒体实验室联合开发了一套用于研究ChatGPT情感健康状态的分类器并将其开源。这些工具旨在评估AI模型确认用户感受的机制等指标，不过OpenAI称该合作仅是第一步，未承诺会实际应用这些工具。

阿德勒运用部分分类器对布鲁克斯的对话进行回溯分析，发现它们屡次标记出ChatGPT强化妄想的行为。在200条消息样本中，超过85%的对话呈现“无条件附和使用者”，超过90%的消息“肯定用户的独特性”——具体表现为反复认可布鲁克斯是能拯救世界的天才。

虽然不确定OpenAI在布鲁克斯对话期间是否启用了安全分类器，但这类对话本应触发警报。阿德勒建议OpenAI应立即实践应用此类安全工具，并建立扫描高危用户的机制。他注意到GPT-5似乎正在推行类似方案，其内置路由可将敏感查询导向更安全的AI模型。

这位前研究员还提出了其他预防妄想漩涡的方案：企业应更频繁引导用户开启新对话——OpenAI称已实施该措施，并承认长对话中安全护栏效果会减弱；此外建议采用概念搜索（基于语义而非关键词的AI检索）来识别用户中的安全隐患。

自这些事件曝光以来，OpenAI已在改善ChatGPT对心理困扰用户的应对方面取得显著进展。该公司声称GPT-5的谄媚现象出现率更低，但尚不确定用户是否仍会因GPT-5或未来模型陷入妄想困境。

阿德勒的分析报告同时引发了对其他AI聊天机器人供应商的拷问：即便OpenAI能为ChatGPT建立充分防护，但所有企业都跟进实施的可能性微乎其微。

搜索结果如下

阅读全文

前OpenAI研究员剖析ChatGPT妄想漩涡，揭示AI安全隐忧

也可以看看

五十年后，最令人不安惊悚片回归，震撼流媒体平台

阅读全文

惠普49英寸超宽屏显示器，专为高效办公设计，提升生产力

阅读全文

Steam硬件调查揭示8GB显卡衰退，玩家转向16GB显存配置

阅读全文