周二,OpenAI推出了一套新工具,旨在帮助开发者和企业利用其AI模型和框架打造AI代理。所谓AI代理,就是能够独立完成任务的自动化系统。这些工具是OpenAI新推出的Responses API的一部分,它允许企业开发能够进行网络搜索、扫描公司文件以及浏览网站的定制化AI代理,其功能与OpenAI的Operator产品类似。Responses API实际上取代了OpenAI的Assistants API,后者计划在2026年上半年正式停用。
尽管AI代理的热度近年来不断攀升,但科技行业似乎一直难以向大众清晰地展示,甚至定义“AI代理”究竟是什么。就在最近,中国初创公司蝴蝶效应(Butterfly Effect)推出了一款名为Manus的AI代理平台,并迅速走红。然而,用户很快发现该平台并没有兑现公司此前的许多承诺。这也反映出,OpenAI在开发AI代理时面临着巨大的挑战。
“展示一个AI代理很容易,但要实现规模化应用却很难,而且要让人们频繁使用它就更难了。”OpenAI API产品负责人奥利维尔·戈德曼(Olivier Godement)在接受TechCrunch采访时表示。今年早些时候,OpenAI在ChatGPT中推出了两个AI代理:Operator(代为浏览网站)和深度研究(为你编制研究报告)。这两种工具让人们得以一窥代理技术能够实现的功能,但在“自主性”方面仍有许多不足。
如今,借助Responses API,OpenAI希望出售驱动AI代理的组件,让开发者能够构建类似Operator和深度研究风格的代理应用。OpenAI期待开发者能够利用其代理技术开发出更具自主性的应用。
通过Responses API,开发者可以使用OpenAI ChatGPT搜索工具背后的相同AI模型(目前处于预览阶段),即GPT-4o搜索和GPT-4o迷你搜索。这些模型可以在网络上搜索问题的答案,并在生成回复时引用来源。OpenAI声称,GPT-4o搜索和GPT-4o迷你搜索在事实准确性方面表现出色。在公司用于衡量模型回答简短事实性问题能力的SimpleQA基准测试中,GPT-4o搜索得分90%,GPT-4o迷你搜索得分88%(分数越高越好)。相比之下,OpenAI最近发布的更大模型GPT-4.5得分仅为63%。
Responses API还包含一个文件搜索工具,能够快速扫描公司数据库中的文件以检索信息(OpenAI声称不会使用这些文件训练模型)。此外,使用Responses API的开发者可以使用OpenAI的计算机使用代理(CUA)模型,该模型为Operator提供支持。该模型能够生成鼠标和键盘操作,让开发者能够自动化诸如数据输入和应用程序工作流程等计算机使用任务。
OpenAI表示,企业可以选择在本地系统上运行处于研究预览阶段的CUA模型。而Operator中面向消费者的CUA版本只能在网页上执行操作。
需要明确的是,Responses API并不能解决当前困扰AI代理的所有技术问题。尽管AI驱动的搜索工具比传统AI模型更准确(鉴于它们可以直接查找正确答案,这一点不足为奇),但网络搜索并不能完全解决AI幻觉的问题。GPT-4o搜索仍有10%的事实性问题回答错误。除了准确性之外,AI搜索工具通常还难以处理简短的导航性查询(例如“湖人队今天的比分”),近期的报告还表明ChatGPT的引用并不总是可靠的。
在提供给TechCrunch的一篇博客文章中,OpenAI表示CUA模型“目前还不足以可靠地自动化操作系统上的任务”,并且容易出现“无意的”错误。然而,OpenAI表示,这些只是其代理工具的早期版本,公司一直在努力改进它们。
除了Responses API外,OpenAI还发布了一个名为Agents SDK的开源工具包,为开发者提供免费工具,以便将模型与其内部系统集成,设置防护措施,并监控AI代理活动以进行调试和优化。Agents SDK可以看作是OpenAI去年年底发布的多代理编排框架Swarm的后续版本。
戈德曼表示,他希望OpenAI能够在今年弥合AI代理演示与产品之间的差距,而且他认为“代理是即将出现的最具影响力的AI应用”。这与OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)在1月的声明相呼应:2025年是AI代理进入劳动力市场的年份。
无论2025年是否会真正成为“AI代理之年”,OpenAI的最新发布表明,该公司希望从炫酷的代理演示转向具有影响力的实际工具。