今年年初,OpenAI 首席执行官萨姆·阿尔特曼在博客中表示,2025 年人工智能代理将迎来大发展。这种工具可以自动化任务并代表用户采取行动。如今,OpenAI 的首次真正尝试已经到来。

openAI-spiral-color-v2

前几天,OpenAI 宣布推出 Operator 的研究预览版。这是一种通用人工智能代理,能够控制网络浏览器并独立执行某些操作。Operator 将率先面向美国的 ChatGPT 专业订阅计划用户推出,该计划每月收费 200 美元。OpenAI 表示,未来会将这一功能逐步推广到其 Plus、Team 和 Enterprise 等其他用户层级。

“Operator 很快就会在其他国家推出。”萨姆·阿尔特曼在周四的直播中说道,“不过欧洲可能需要等待一段时间。”

目前,这一初步研究预览版可通过 operator.chatgpt.com 访问。但 OpenAI 计划未来将 Operator 整合到其所有 ChatGPT 客户端中。

Operator 的主屏幕界面显示,它承诺可以自动化多种任务,例如预订旅行住宿、预订餐厅座位和在线购物等。在 Operator 界面内,用户可以选择多个任务类别,包括购物、配送、餐饮和旅行等,这些类别均能实现不同类型的自动化。

当 ChatGPT 用户激活 Operator 时,会弹出一个小窗口,显示该代理用于完成任务的专用网络浏览器,以及代理正在执行的具体操作的说明。在 Operator 工作时,用户仍然可以控制自己的屏幕,因为 Operator 使用的是其自己的专用浏览器。

OpenAI 表示,Operator 由计算机使用代理模型(Computer-Using Agent model,简称 CUA)驱动。该模型结合了公司 GPT-4o 模型的视觉能力以及 OpenAI 更先进模型的推理能力。CUA 被训练用于与网站前端交互,这意味着它无需使用面向开发者的 API 来接入不同服务。换句话说,CUA 可以像人类一样在网页上使用按钮、导航菜单以及填写表格。

“CUA 模型被训练为在最终确定具有外部影响的任务之前征求用户确认,例如在提交订单、发送电子邮件等之前,以便用户可以在任务永久化之前再次检查模型的工作。”OpenAI 在提供给 TechCrunch 的材料中写道,“它已经在多种情况下被证明是有用的,我们希望将其可靠性扩展到更广泛的任务范围。”

不过,OpenAI 也提醒,CUA 并非完美无缺。目前,Operator 还不能可靠地处理许多复杂或专业化的任务,例如创建详细的幻灯片、管理复杂的日历系统,或者与高度定制化或非标准的网络界面进行交互。出于谨慎考虑,OpenAI 还要求对一些任务进行监督,例如银行交易,CUA 和 Operator 本可以主要独立完成这些任务。用户需要接管输入信用卡信息等操作。OpenAI 表示,Operator 不会收集或截取任何数据。

在特别敏感的网站上,例如电子邮件,Operator 要求用户积极监督,确保用户可以直接发现并纠正模型可能犯下的任何潜在错误。

这确实限制了 Operator 的实用性,但也确保了该代理不会出现错误的“幻觉”,比如说把你的抵押贷款还款花在装饰用的椅子上。谷歌在其 Project Mariner 人工智能代理上也采取了类似的方法,该代理同样不会填写信用卡号码等信息。

Operator 还有一些值得注意的限制。存在速率限制,包括每日限制和基于任务的限制。OpenAI 表示,Operator 可以同时执行多项任务,但存在“动态限制”。还有一个每日重置的总体使用限制。

在这一发布阶段,出于安全原因,Operator 也会直接拒绝执行某些任务,例如发送电子邮件(尽管 CUA 有能力做到这一点)和删除日历事件。OpenAI 表示,这种情况在未来会有所改变,但没有给出具体时间。

如果遇到特别复杂的界面、密码字段或验证码检查,Operator 也可能会“卡住”。遇到这种情况时,它会要求用户接管。

与其他竞争对手(例如 Rabbit、谷歌和 Anthropic 的代理)相比,OpenAI 在开发人工智能代理方面进展较为缓慢,这可能与该技术的安全风险有关。当一个人工智能系统可以在网络上采取行动时,它为不法分子开辟了更具危险性的使用案例。你可以利用人工智能代理来策划网络钓鱼骗局或分布式拒绝服务(DDoS)攻击,或者让他们在其他人之前抢购音乐会门票。尤其是对于像 ChatGPT 这样广泛使用的工具来说,OpenAI 采取措施防止这类漏洞是非常重要的。

OpenAI 认为,至少作为研究预览版,Operator 已足够安全,可以发布。Operator 采用了旨在限制模型对恶意提示、隐藏指令和网络钓鱼企图的易感性的工具。如果检测到可疑活动,监控系统将暂停执行,同时自动化和人工审核的流程会持续更新安全防护措施。

Operator 是 OpenAI 到目前为止在创建人工智能代理方面最雄心勃勃的尝试。上周,OpenAI 推出了 Tasks,为 ChatGPT 增加了一些简单的自动化功能,例如设置提醒和安排每天在特定时间运行提示。Tasks 为 ChatGPT 用户带来了一些熟悉但必要的功能,使 ChatGPT 与 Siri 或 Alexa 一样实用。然而,Operator 展示出了上一代虚拟助手所无法做到的能力。

人工智能代理被宣传为继 ChatGPT 之后人工智能领域的下一个大事件。这种新技术将改变人们使用互联网和电脑的方式。理论上,与仅仅传递和处理信息不同,代理可以采取行动并真正完成事情。随着 OpenAI 首个具体的人工智能代理版本的发布,很快就会清楚这一愿景到底有多现实。


文章标签: #人工智能 #OpenAI #AI代理 #自动化 #安全

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。