OpenAI(开放人工智能研究中心)近日发布的全新o3与o4-mini推理模型引发了广泛关注。这两款新模型不仅在性能上大幅超越前代o1和o3-mini版本,更具备“图像思维”能力以及智能组合多种AI工具完成复杂任务的技术突破。

Cover Image

值得注意的是,据TechCrunch报道,OpenAI内部测试数据显示,新模型的“幻觉”发生率呈现反常增长趋势。在人工智能领域,“幻觉”特指模型生成看似合理但完全失实的信息。例如当用户向ChatGPT(聊天生成预训练转换器)提出问题时,系统可能给出与事实严重偏离的答案。

具体测试数据显示,在评估人物话题事实准确性的PersonQA(人物问答)基准测试中:

o3模型的幻觉率达到33%

o4-mini更是高达48%

作为对比,旧版o1和o3-mini的数值分别为16%与14.8%

这种技术迭代过程中的性能退步现象引发行业关注。虽然幻觉效应在某些创意场景中可能无害,但当AI助手被应用于医疗咨询、法律建议等准确性敏感领域时,错误信息的产生将直接影响系统可信度。OpenAI发言人表示,技术团队正在全力排查原因,并承诺将持续提升模型的事实准确性输出可靠性


文章标签: #AI模型 #幻觉率 #OpenAI #性能突破 #准确性

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。