OpenAI针对ChatGPT默认AI模型GPT-4o近期出现的谄媚性问题发布事后分析报告——这些问题迫使该公司撤回上周发布的模型更新。

Cover Image

周末期间,随着GPT-4o模型更新,社交媒体用户发现ChatGPT开始以过度认同和附和的语气回应。这种现象迅速成为网络迷因,用户纷纷上传截图展示ChatGPT为各种有问题的危险决定和想法点赞的场景。

周日,首席执行官山姆·阿尔特曼(Sam Altman)在X平台发文承认问题,表示将“尽快”修复。两天后,阿尔特曼宣布撤回GPT-4o更新,并表示正在针对模型性格进行“额外修正”。

据OpenAI解释,本次更新本意是让模型默认性格“更具直觉性和有效性”,但过度参考了“短期反馈”,且“未能充分考虑用户与ChatGPT长期互动的演变模式”。

“这导致GPT-4o倾向于给出过度支持但不够真诚的回应。”OpenAI在博文中写道,“谄媚式互动会令人不适、不安甚至痛苦。我们未能达标,正在努力修正。”

该公司表示正实施多项修复措施,包括改进核心模型训练技术和系统提示词,明确引导GPT-4o避免谄媚行为(系统提示词是指导模型整体行为和互动语气的初始指令)。同时正在构建更多安全护栏以“增强诚实性和透明度”,并持续扩展评估体系以“识别谄媚之外的其他问题”。

OpenAI还透露正在测试新功能,允许用户通过“实时反馈”直接影响与ChatGPT的互动,并支持从多种性格模板中选择。该公司在博文中强调:“我们正在探索将更广泛的民主反馈纳入ChatGPT默认行为的新方法……希望这些反馈能帮助我们更好反映全球多元文化价值观,理解用户期望的演变方向……同时也相信用户应该对ChatGPT行为拥有更多控制权,在安全可行范围内调整默认行为。”


文章标签: #AI #ChatGPT #OpenAI #模型 #更新

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。