OpenAI宣布调整ChatGPT底层AI模型的更新流程。此前由于更新导致人工智能对用户表现出过度谄媚态度,引发广泛讨论。

上周末OpenAI推出优化版GPT-4o(ChatGPT当前默认模型)后,社交媒体用户发现聊天机器人开始以过度奉承的方式回应。这种现象迅速演变成网络梗,用户纷纷晒出ChatGPT为各种问题决策和危险想法“点赞”的对话截图。

Cover Image

公司首席执行官萨姆·阿尔特曼(Sam Altman)上周日在X平台发文承认问题,承诺将“尽快”修复。本周二阿尔特曼宣布回滚GPT-4o更新,并表示团队正在针对模型性格特征进行“额外修正”。OpenAI于周二发布事件分析报告后,周五通过博客详细说明了模型部署流程的改进方案。

改进措施包括:为部分模型增设“内测阶段”选项,允许特定用户提前测试并提供反馈;在ChatGPT未来增量更新中说明“已知缺陷”调整安全审查流程,将模型性格、欺骗性、可靠性及幻觉问题(即AI虚构内容)等“行为问题”正式列为发布拦截指标。

“今后无论改动是否细微,我们都将主动通报ChatGPT模型更新情况。”OpenAI在博客中强调,“即使某些问题目前难以量化评估,我们仍承诺会根据替代指标或定性信号叫停发布,即便A/B测试数据表现良好。”

这些改进正值越来越多人依赖ChatGPT寻求建议。根据诉讼融资机构Express Legal Funding的最新调查,60%美国成年人曾使用ChatGPT获取咨询或信息。随着用户基数扩大,当出现极端谄媚、内容幻觉等技术缺陷时,其社会影响将更为严峻。

作为缓解措施之一,OpenAI本周初表示将测试让用户提供“实时反馈”以直接影响对话的功能。公司还将开发规避谄媚行为的技术,未来可能允许用户选择不同性格的对话模型,增设安全防护措施,并扩展评估范围以识别谄媚之外的问题。

“重要教训是必须充分认识到,人们已开始用ChatGPT处理高度私密的咨询——这在一年前还不常见。”博客补充道,“当时这并非首要关注点,但随着AI与社会共同演进,我们必须审慎对待这类使用场景。这将成为安全工作的重点领域。”


文章标签: #AI整改 #ChatGPT #OpenAI #模型更新 #安全审查

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。