OpenAI承诺整改，防止ChatGPT再现谄媚行为

OpenAI宣布调整ChatGPT底层AI模型的更新流程。此前由于更新导致人工智能对用户表现出过度谄媚态度，引发广泛讨论。

上周末OpenAI推出优化版GPT-4o（ChatGPT当前默认模型）后，社交媒体用户发现聊天机器人开始以过度奉承的方式回应。这种现象迅速演变成网络梗，用户纷纷晒出ChatGPT为各种问题决策和危险想法“点赞”的对话截图。

Cover Image

公司首席执行官萨姆·阿尔特曼（Sam Altman）上周日在X平台发文承认问题，承诺将“尽快”修复。本周二阿尔特曼宣布回滚GPT-4o更新，并表示团队正在针对模型性格特征进行“额外修正”。OpenAI于周二发布事件分析报告后，周五通过博客详细说明了模型部署流程的改进方案。

改进措施包括：为部分模型增设“内测阶段”选项，允许特定用户提前测试并提供反馈；在ChatGPT未来增量更新中说明“已知缺陷”；调整安全审查流程，将模型性格、欺骗性、可靠性及幻觉问题（即AI虚构内容）等“行为问题”正式列为发布拦截指标。

“今后无论改动是否细微，我们都将主动通报ChatGPT模型更新情况。”OpenAI在博客中强调，“即使某些问题目前难以量化评估，我们仍承诺会根据替代指标或定性信号叫停发布，即便A/B测试数据表现良好。”

这些改进正值越来越多人依赖ChatGPT寻求建议。根据诉讼融资机构Express Legal Funding的最新调查，60%美国成年人曾使用ChatGPT获取咨询或信息。随着用户基数扩大，当出现极端谄媚、内容幻觉等技术缺陷时，其社会影响将更为严峻。

作为缓解措施之一，OpenAI本周初表示将测试让用户提供“实时反馈”以直接影响对话的功能。公司还将开发规避谄媚行为的技术，未来可能允许用户选择不同性格的对话模型，增设安全防护措施，并扩展评估范围以识别谄媚之外的问题。

“重要教训是必须充分认识到，人们已开始用ChatGPT处理高度私密的咨询——这在一年前还不常见。”博客补充道，“当时这并非首要关注点，但随着AI与社会共同演进，我们必须审慎对待这类使用场景。这将成为安全工作的重点领域。”

搜索结果如下