还记得我们约一个月前报道过Anthropic公司发现AI模型内部运作机制与其自我描述的“思考”过程大相径庭吗?如今,围绕最新大语言模型(LLM)的诸多谜团中,又新增了日益恶化的幻觉问题——这来自聊天机器人领域领导者OpenAI的测试数据。
《纽约时报》披露,OpenAI对其最新GPT o3和GPT o4-mini大型语言模型的调查显示,相较于前代GPT o1模型,新模型更频繁地产生幻觉(即编造虚假信息)。在其PersonQA基准测试(涉及公众人物问答)中,旗舰系统o3的幻觉率高达33%,是前代推理系统o1的两倍多;而新型o4-mini的幻觉率更飙升至48%。
在另一项名为SimpleQA的通用问题测试中,o3和o4-mini的幻觉率分别达到51%和79%,而o1模型为44%。OpenAI表示需要进一步研究新模型更易产生幻觉的原因,但行业观察家认为所谓“推理”模型可能是主因。《纽约时报》指出:“来自OpenAI、谷歌和中国初创公司深度求索(DeepSeek)等企业的最新最强技术——所谓推理系统——正在产生更多而非更少的错误。”
简言之,推理模型是专为复杂任务设计的LLM变体。它们不像传统模型那样基于概率统计输出文本,而是将问题分解为类似人类思维过程的步骤。OpenAI去年推出的首款推理模型o1,据称在物理、化学、生物学领域达到博士生水平,并因采用强化学习技术在数学和编程方面超越人类。该公司曾解释:“就像人类面对难题会深思熟虑,o1通过思维链来解决问题。”
然而OpenAI反驳了“推理模型幻觉率更高”的说法。研究员加比·雷拉向《纽约时报》表示:“幻觉并非推理模型固有缺陷,我们正积极降低o3和o4-mini的高幻觉率。”但不可否认的是,若要使AI模型达到开发者预期的实用程度,必须大幅减少其胡言乱语。目前状态下,任何LLM的输出都需严格核验——这对于本应节省时间的工具而言,显然违背了使用初衷。OpenAI乃至整个LLM行业能否管控这些不受控的“机器幻梦”,仍有待观察。