上周五,OpenAI推出名为Codex的新型编程系统,该系统能够根据自然语言指令执行复杂编程任务。这标志着OpenAI正式加入刚刚兴起的自主编程工具阵营。
从GitHub早期推出的Copilot到Cursor、Windsurf等当代工具,多数AI编程助手本质上仍是高度智能的自动补全工具。这些工具通常内置于集成开发环境,用户需要直接与AI生成的代码交互。目前尚无法实现“下达任务后坐等完成”的理想状态。
但以Devin、SWE-Agent、OpenHands及前述OpenAI Codex为代表的新一代自主编程工具,其设计理念是让用户无需查看代码细节。这类工具旨在扮演工程团队管理者的角色,通过Asana或Slack等工作系统分配任务,并在解决方案生成后进行验收。
对于强人工智能的信奉者而言,这是自动化接管软件工作的自然演进。“最初人们需要逐个字符敲代码,”普林斯顿研究员、SWE-Agent团队成员基利安·里尔瑞特(Kilian Lieret)解释道,“GitHub Copilot实现了真正的自动补全,可视为第二阶段。开发者仍需全程参与,但能获得某些捷径。”
自主系统的终极目标是完全跳出开发环境,仅需提交问题即可获得解决方案。“我们将操作层级提升至管理界面,只需提交错误报告,机器人就会尝试自主修复,”里尔瑞特表示。但这个雄心勃勃的目标目前仍面临挑战。
2024年底Devin正式发布后,既遭遇YouTube评论家的尖锐批评,也收到早期客户Answer.AI的审慎评价。从业者普遍反馈与既往体验类似:纠错工作量甚至超过手动编程。(尽管推广遇阻,其母公司Cognition AI仍在今年三月以40亿美元估值融资数亿美元)
即使是技术支持者也警告需谨慎使用自主编程,认为其更适合作为人类监督下的开发辅助工具。“目前乃至可预见的未来,代码审查环节必须有人类参与,”OpenHands维护方All Hands AI首席执行官罗伯特·布伦南(Robert Brennan)强调,“盲目批准AI生成的代码会迅速导致混乱。”
幻觉问题同样亟待解决。布伦南举例称,当询问训练数据截止后发布的API时,系统会虚构符合描述的接口细节。虽然公司正在开发防护系统,但尚无完美解决方案。
SWE-Bench排行榜是目前较权威的评估体系,开发者可测试模型解决GitHub开源问题的能力。OpenHands以65.8%解决率位居榜首,而OpenAI宣称Codex底层模型codex-1能达到72.1%,但该成绩存在限制条件且未经验证。
业界担忧高分未必意味着真正的免干预编程。若自主系统仅能解决四分之三的问题,仍需要大量人工监督——特别是在处理多阶段复杂系统时。
与大多数AI工具类似,基础模型的持续改进或将推动自主编程系统发展为可靠工具。但克服幻觉等可靠性问题将是关键。“这类似于突破音障的过程,”布伦南指出,“核心在于如何建立信任机制,让自主系统真正减轻人类工作负担?”