OpenAI推出Codex，加入新一代自主编程工具阵营

上周五，OpenAI推出名为Codex的新型编程系统，该系统能够根据自然语言指令执行复杂编程任务。这标志着OpenAI正式加入刚刚兴起的自主编程工具阵营。

Cover Image

从GitHub早期推出的Copilot到Cursor、Windsurf等当代工具，多数AI编程助手本质上仍是高度智能的自动补全工具。这些工具通常内置于集成开发环境，用户需要直接与AI生成的代码交互。目前尚无法实现“下达任务后坐等完成”的理想状态。

但以Devin、SWE-Agent、OpenHands及前述OpenAI Codex为代表的新一代自主编程工具，其设计理念是让用户无需查看代码细节。这类工具旨在扮演工程团队管理者的角色，通过Asana或Slack等工作系统分配任务，并在解决方案生成后进行验收。

对于强人工智能的信奉者而言，这是自动化接管软件工作的自然演进。“最初人们需要逐个字符敲代码，”普林斯顿研究员、SWE-Agent团队成员基利安·里尔瑞特（Kilian Lieret）解释道，“GitHub Copilot实现了真正的自动补全，可视为第二阶段。开发者仍需全程参与，但能获得某些捷径。”

自主系统的终极目标是完全跳出开发环境，仅需提交问题即可获得解决方案。“我们将操作层级提升至管理界面，只需提交错误报告，机器人就会尝试自主修复，”里尔瑞特表示。但这个雄心勃勃的目标目前仍面临挑战。

2024年底Devin正式发布后，既遭遇YouTube评论家的尖锐批评，也收到早期客户Answer.AI的审慎评价。从业者普遍反馈与既往体验类似：纠错工作量甚至超过手动编程。（尽管推广遇阻，其母公司Cognition AI仍在今年三月以40亿美元估值融资数亿美元）

即使是技术支持者也警告需谨慎使用自主编程，认为其更适合作为人类监督下的开发辅助工具。“目前乃至可预见的未来，代码审查环节必须有人类参与，”OpenHands维护方All Hands AI首席执行官罗伯特·布伦南（Robert Brennan）强调，“盲目批准AI生成的代码会迅速导致混乱。”

幻觉问题同样亟待解决。布伦南举例称，当询问训练数据截止后发布的API时，系统会虚构符合描述的接口细节。虽然公司正在开发防护系统，但尚无完美解决方案。

SWE-Bench排行榜是目前较权威的评估体系，开发者可测试模型解决GitHub开源问题的能力。OpenHands以65.8%解决率位居榜首，而OpenAI宣称Codex底层模型codex-1能达到72.1%，但该成绩存在限制条件且未经验证。

业界担忧高分未必意味着真正的免干预编程。若自主系统仅能解决四分之三的问题，仍需要大量人工监督——特别是在处理多阶段复杂系统时。

与大多数AI工具类似，基础模型的持续改进或将推动自主编程系统发展为可靠工具。但克服幻觉等可靠性问题将是关键。“这类似于突破音障的过程，”布伦南指出，“核心在于如何建立信任机制，让自主系统真正减轻人类工作负担？”

搜索结果如下

阅读全文

OpenAI推出Codex，加入新一代自主编程工具阵营

也可以看看

迈克尔·贝监制，《真人快打》明星执导健身恐怖片《撕裂》

阅读全文

《呼啸山庄》烂番茄评分揭晓，口碑两极分化，美学获赞

阅读全文

用户成功在微星Cubi迷你电脑上，运行Linux版OpenClaw AI智能体

阅读全文