OpenAI最新发布的o3和o4-mini人工智能模型在多方面处于行业前沿水平。然而这些新型号仍存在“幻觉”问题(即虚构内容)——事实上,它们的幻觉现象比OpenAI多个旧型号更为严重。
幻觉问题已被证明是AI领域最大且最棘手的难题之一,即便当今性能最优异的系统也未能幸免。从历史数据看,每个新型号在幻觉控制方面都有小幅改进。但o3和o4-mini似乎打破了这一趋势。
根据OpenAI内部测试,作为“推理模型”的o3和o4-mini,其幻觉频率不仅高于该公司早期推理模型(o1、o1-mini和o3-mini),甚至超过了GPT-4o等传统“非推理”模型。更令人担忧的是,ChatGPT的创造者至今尚未找到确切原因。
在技术报告中,OpenAI表示需要“更多研究”来理解为何随着推理模型规模扩大,幻觉现象反而恶化。o3和o4-mini在编程和数学相关任务中表现更优,但由于“整体输出量更大”,导致“准确声明与错误/幻觉声明同步增加”的困境。
测试数据显示,在评估模型人物知识准确性的内部基准PersonQA中,o3对33%的问题产生了幻觉回答,达到前代推理模型o1(16%)和o3-mini(14.8%)的两倍多。o4-mini表现更糟,幻觉率高达48%。
非营利AI研究机构Transluce的第三方测试发现,o3存在编造推理过程的行为。典型案例中,o3声称在“ChatGPT外部”的2021款MacBook Pro上运行了代码并复制结果——尽管该模型根本不具备此功能。Transluce研究员尼尔·乔杜里(曾任职OpenAI)推测:“用于o系列模型的强化学习方法可能放大了本应被标准训练流程缓解(但未完全消除)的问题。”
斯坦福客座教授基安·卡坦福鲁什透露,其团队在编程工作流测试中发现o3虽整体优于竞品,但存在生成失效网页链接的问题。这种矛盾现象使得在准确性至上的商业场景(如法律合同起草)中,部分企业仍对采用此类模型持谨慎态度。
提升准确性的潜在方案包括赋予模型网络搜索能力。搭载网络搜索的GPT-4o在SimpleQA基准测试中达到90%准确率。但这种方法需要用户愿意将提示词暴露给第三方搜索供应商。
随着全行业转向开发推理模型以突破传统AI的性能瓶颈,幻觉问题的恶化趋势使得解决方案的探寻变得愈发紧迫。OpenAI发言人尼科·费利克斯表示:“解决模型幻觉问题是持续研究方向,我们正不断改进其准确性和可靠性。”这一挑战预示着,在追求AI更高智能水平的同时,如何平衡创造力与事实准确性将成为关键课题。