OpenAI的GPT-5.4引入了突破性的智能体人工智能能力,使其能够自主执行计算机操作,例如点击鼠标和编辑文件。

据PCWorld报道,这一进展标志着人工智能代理向独立控制个人电脑任务迈出了重要一步,其特点是提升了电子表格处理技能和更高效的推理能力。该模型可通过ChatGPT、OpenAI API和Codex获取,代表了从传统的信息提供型人工智能向交互式计算机控制迈出的重要一步。
还记得人工智能模型只能告诉你该怎么做的时候吗?现在,最新的大语言模型在智能体人工智能软件的帮助下,实际上可以动手操作了,而OpenAI的新旗舰模型正是其中最新的一员。
GPT-5.4现已登陆ChatGPT(在该平台名为GPT-5.4 Thinking),以及OpenAI API和OpenAI的编码工具Codex(其Windows版本刚刚发布)。
这个新的GPT带来了一系列全新和改进的功能,首先是其增强的电子表格处理技能、更高效的推理能力(意味着它可以用更少的token解决问题,从而降低您的成本),以及在执行复杂任务前向您展示一个“预先”计划的能力,让您有机会在其开始工作前引导模型转向新的方向。
最有趣的是,GPT-5.4标志着OpenAI首个通用模型能够真正在您的计算机上执行操作,而不仅仅是告诉您如何操作。例如,GPT-5.4可以点击鼠标——更准确地说,它可以向您PC上的AI智能体系统发出“点击鼠标”的指令,由该系统执行实际的点击操作。GPT-5.4还可以编辑您系统上的文件、输入键盘命令,并“查看”屏幕截图(使其能够使用网络浏览器或与计算机程序交互)。
这里有一个重要的注意事项:GPT-5.4只有在通过OpenAI API或OpenAI的Codex工具运行时,才能接管您的PC。当您通过ChatGPT(即ChatGPT桌面应用程序或网页界面)使用GPT-5.4 Thinking时,该大语言模型仍然局限于其聊天框及其各种ChatGPT集成功能,例如与Google Drive、Spotify、Adobe Photoshop等的集成。
同样值得注意的是,虽然GPT-5.4是首个能够实际使用您PC的通用GPT,但它并非首个具备此能力的GPT。此前已有专门针对Codex的GPT能够执行命令、编辑文件,并在一定程度上导航图形界面和完成网络工作流程。但凭借其实际浏览网页和接管PC程序的能力,GPT-5.4将早期专门针对Codex的模型的“计算机使用”能力提升到了一个新的水平。
这意味着,您可以设想让您计算机上由GPT-5.4控制的AI智能体去“在Quicken上平衡我的账目”,它将能够自主启动Quicken应用程序,在界面中点击操作,并平衡您的账户。
当然,您是否愿意让GPT-5.4独自在Quicken中操作完全是另一个问题。对于敏感任务,您很可能希望在它工作时从旁监督,就像您在使用Codex应用程序中的GPT-5.4进行编码时可以做到的那样。
尽管如此,GPT-5.4“动手做,而不仅仅是说”的能力完美地预示了我们未来的方向:由AI智能体控制的个人电脑,在我们高层次的指令下自主执行任务。话虽如此,让我们的AI智能体正确遵循我们的指令,才是真正的挑战所在。



