最近,OpenAI 发布了一款名为 Operator 的新工具,它能够与浏览器无缝集成,帮助用户自动完成各种任务。无论是填写复杂的在线表单,还是轻松下单买菜,Operator 都能通过模拟人类操作(比如点击、输入和滚动)来简化这些重复性的在线活动。
Operator 的核心是一个名为“计算机使用代理”(Computer-Using Agent,简称 CUA)的新模型。它结合了 GPT-4o 的视觉识别能力和先进的推理能力,就像是一个虚拟的“浏览器中的真人助手”。不过,尽管这款工具充满了创新,但行业专家们认为它还有很大的提升空间。
Lab49 咨询公司人工智能部门负责人叶昂尼奥斯·安托尼乌(Yiannis Antoniou)分享了他对 Operator 的看法。他认为,OpenAI 推出的这款产品虽然令人兴奋,但也还不够完善。安托尼乌拥有超过二十年为金融服务公司设计人工智能系统的经验。
他指出,Operator 显然是受到了 Anthropic 公司 Claude 的计算机使用系统的启发。与后者类似,Operator 通过简化操作流程,让用户无需复杂的基础设施,直接在熟悉的浏览器环境中使用。这种设计巧妙地避开了需要定制 API 或复杂集成的问题。
“通过利用全球最流行的浏览器界面,OpenAI 不仅提升了用户体验,还迅速吸引了大众的关注。”安托尼乌表示,“这种以浏览器为中心的设计,为广泛采用创造了巨大的潜力。尽管 Anthropic 在这个领域有先发优势,但在推广上却一直面临挑战。”
与一些技术性或小众化的竞争产品不同,Operator 的浏览器框架降低了使用门槛,是 OpenAI 推动人工智能普及化的重要一步。
Operator 的一大亮点是其对适应性和安全性的重视,通过“人在回路”(human-in-the-loop)机制来保障使用安全。安托尼乌认可这些设计,但也指出仍有改进之处。
从架构上看,Operator 的浏览器集成与 Anthropic 的 Claude 系统非常相似,都是通过截取浏览器屏幕进行分析,并通过虚拟键盘输入和鼠标操作来控制屏幕。不过,Operator 增加了一些贴心的设计,比如为特定网站提供自定义指令,增加了个性化体验。同时,“人在回路”的安全机制可以防止未经授权的操作,比如自动购物、发送邮件或申请工作等,这体现了 OpenAI 对恶意网站可能带来的安全风险的重视。然而,安托尼乌认为,要确保该系统在各种复杂场景下都能安全使用,还需要进一步努力。
OpenAI 为 Operator 设计了多层次的安全框架,包括安全输入模式、重大操作前的用户确认以及对抗性行为检测系统。此外,用户还可以直接在工具内删除浏览数据并管理隐私设置。
不过,安托尼乌强调,这些安全措施仍在不断发展,尤其是在面对复杂或敏感任务时,还需要进一步完善。安托尼乌认为,Operator 的推出是消费级人工智能领域的一个重要里程碑,尽管目前还处于早期阶段。
“总体而言,这是为普通用户打造代理系统的一次出色尝试,它围绕用户与技术的自然交互方式设计。”他表示,“随着系统的不断升级,增加更多功能和更强大的安全控制,这次有限的推出(每月定价 200 美元)将是一个重要的试验场。”
目前,Operator 主要面向 Pro 用户,定价较高。这为 OpenAI 提供了一个从早期用户那里收集反馈并完善功能的机会。安托尼乌指出,尽管每月 200 美元的价格可能还不足以体现系统的价值,但如果 OpenAI 能够持续提升 Operator 的功能和易用性,未来将具有巨大的竞争优势。
“目前每月 200 美元的价格可能还不值得,但随着系统的不断改进,OpenAI 的技术壁垒将不断提高,让竞争对手难以追赶。”他总结道,“现在,挑战又回到了 Anthropic 和谷歌身上,这两家公司都在小众或工程导向的产品中展示了类似的能力,他们需要做出回应并保持竞争力。”
随着 OpenAI 不断完善 Operator,其改变人们与技术互动方式的潜力逐渐显现。从与 Instacart、DoorDash 和 Uber 等公司的合作,到在公共部门的应用,Operator 旨在平衡创新与信任和安全。
尽管早期的限制和定价可能暂时阻碍了广泛采用,但随着 OpenAI 持续提升产品的可用性和可访问性,这些障碍有望在未来得到解决。