最近,OpenAI 宣布推出了一项名为“深度研究”(Deep Research)的新功能,旨在帮助用户利用其 AI 聊天机器人平台 ChatGPT 进行深入、复杂的调研工作。这项功能主要面向那些在金融、科学、政策和工程等领域从事高强度知识工作的专业人士,他们需要进行彻底、精确且可靠的调研。此外,对于那些在购买汽车、家电和家具等需要谨慎研究的产品时,这个工具也会非常实用。
深度研究:不只是快速回答
与普通的问答不同,深度研究适用于那些需要从多个网站和其他来源仔细分析和整合信息的场景。用户不再满足于简单的答案或总结,而是需要更深入、更全面的分析。
目前,深度研究功能已经向 ChatGPT Pro 用户开放,每月限制 100 次查询。未来,该功能将逐步扩展到 Plus 和团队用户,最后是企业用户。OpenAI 计划在未来一个月左右推出 Plus 版本,付费用户的查询限制也将很快大幅提高。不过,这项功能目前仅限于网页端使用,移动和桌面应用程序的集成将在本月底推出。值得注意的是,这是一个地理定向的发布,OpenAI 并未透露英国、瑞士和欧洲经济区 ChatGPT 用户的具体发布时间表。
深度研究如何使用?
使用深度研究非常简单。用户只需在编辑器中选择“深度研究”选项,输入查询内容,并可以选择附加文件或电子表格。查询完成后,用户将收到通知,整个过程可能需要 5 到 30 分钟。目前,深度研究的输出结果仅限于文本形式,但 OpenAI 表示,未来将添加嵌入式图像、数据可视化和其他分析功能。此外,公司还计划连接更多专业数据源,包括订阅制和内部资源。
准确性是关键
尽管人工智能技术不断发展,但其准确性仍然是一个关键问题。AI 模型可能会出现错误或产生误导性信息,这在深度研究场景中可能会带来严重后果。为了应对这一挑战,OpenAI 表示,深度研究的每一次输出都将全面记录,附有清晰的引用和对思考过程的总结,以便用户参考和验证信息。
为了提高深度研究的准确性,OpenAI 使用了其最新推出的 o3“推理”AI 模型的特殊版本。该模型通过强化学习在需要浏览器和 Python 工具的真实任务中进行训练。强化学习通过试错的方式“教导”模型实现特定目标,当模型更接近目标时,会收到虚拟“奖励”,从而使其在未来更好地完成任务。
o3 模型针对网络浏览和数据分析进行了优化,能够搜索、解读和分析互联网上的大量文本、图像和 PDF 文件,并根据遇到的信息灵活调整方向。此外,该模型还可以浏览用户上传的文件,并使用 Python 工具绘制和迭代图表,将生成的图表和网站上的图像嵌入回答中,同时引用其来源中的具体句子或段落。
测试结果与局限性
OpenAI 使用“人类最后的考试”(Humanity’s Last Exam)对深度研究进行了测试。这项测试包含超过 3000 个涵盖多个学术领域的专家级问题。结果显示,为深度研究提供动力的 o3 模型达到了 26.6% 的准确率。尽管这一成绩看起来并不理想,但“人类最后的考试”被设计得比其他基准测试更难,以保持领先于模型的进步。相比之下,Gemini Thinking 的准确率为 6.2%,Grok-2 为 3.8%,而 OpenAI 自己的 GPT-4o 仅为 3.3%。
然而,深度研究仍然存在局限性。它可能会犯错误、做出错误推断,难以区分权威信息和谣言,并且往往无法表达出对某些信息的不确定性。此外,它还可能在报告和引用中出现格式错误。
深度研究的意义
对于那些担心生成式人工智能对学生或普通用户查找信息的影响的人来说,深度研究的深度和引用功能可能更具吸引力。与简单的聊天机器人总结不同,深度研究提供了更全面、更专业的输出。不过,用户是否会对这些输出进行深入分析和双重检查,还是会仅仅将其视为一个更专业的文本进行复制粘贴,还有待观察。
值得注意的是,深度研究并非首创。谷歌在不到两个月前也宣布了一个具有相同名称的类似人工智能功能,这表明在 AI 领域的竞争正在加剧。
总之,OpenAI 的深度研究功能为需要进行复杂调研的用户提供了新的选择,但其准确性和可靠性仍需进一步验证。