OpenAI(开放人工智能研究中心)近日发布的全新o3与o4-mini推理模型引发了广泛关注。这两款新模型不仅在性能上大幅超越前代o1和o3-mini版本,更具备“图像思维”能力以及智能组合多种AI工具完成复杂任务的技术突破。
值得注意的是,据TechCrunch报道,OpenAI内部测试数据显示,新模型的“幻觉”发生率呈现反常增长趋势。在人工智能领域,“幻觉”特指模型生成看似合理但完全失实的信息。例如当用户向ChatGPT(聊天生成预训练转换器)提出问题时,系统可能给出与事实严重偏离的答案。
具体测试数据显示,在评估人物话题事实准确性的PersonQA(人物问答)基准测试中:
o3模型的幻觉率达到33%
o4-mini更是高达48%
作为对比,旧版o1和o3-mini的数值分别为16%与14.8%
这种技术迭代过程中的性能退步现象引发行业关注。虽然幻觉效应在某些创意场景中可能无害,但当AI助手被应用于医疗咨询、法律建议等准确性敏感领域时,错误信息的产生将直接影响系统可信度。OpenAI发言人表示,技术团队正在全力排查原因,并承诺将持续提升模型的事实准确性与输出可靠性。