多年来,CursorWindsurfGitHub Copilot 等代码编辑工具一直是人工智能辅助软件开发的标准配置。但随着自主人工智能(agentic AI)能力增强与氛围编程(vibe coding)兴起,AI系统与软件的交互方式正悄然转变。

Cover Image

这些工具不再局限于代码层面,而是越来越多地直接与所安装系统的终端(shell)交互。这一变革虽然低调,却对AI驱动软件开发的未来方向具有深远影响。

终端工具的复兴

终端——这种黑白界面的古老交互方式因90年代黑客电影闻名,虽不如现代代码编辑器视觉华丽,却是掌握者手中的利器。当基于代码的AI代理还在编写调试程序时,终端工具早已承担着将代码转化为可运行软件的关键桥梁。

行业风向标已然显现:自今年2月起,AnthropicDeepMindOpenAI 相继推出命令行编码工具(分别为 Claude CodeGemini CLICLI Codex),这些产品迅速成为各公司最受欢迎的作品。虽然沿用原有品牌名称,但其底层交互逻辑已发生实质性变革。

“我们坚信,未来95%的大语言模型与计算机交互都将通过类终端界面完成,”专注终端性能评测的 Terminal-Bench 联合创始人 Mike Merrill 如此预言。

传统工具的瓶颈

终端工具的崛起恰逢传统代码工具显露疲态。AI代码编辑器 Windsurf 因高管被谷歌挖角、剩余业务被 Cognition 收购而分崩离析,消费者产品的长期前景蒙上阴影。

更严峻的是,METR研究所 针对 Cursor Pro(Windsurf主要竞品)的测试显示:尽管开发者预估能提速20%-30%,实际观测到的效率反而降低近20%。这种预期与现实的落差,为 Warp 等终端工具提供了绝佳机遇——该产品目前占据Terminal-Bench榜首,定位为“自主开发环境”,介于IDE与传统命令行工具之间的新形态。

“终端处于开发者技术栈的最底层,因此成为运行AI代理最具扩展性的平台,”Warp创始人 Zach Lloyd 指出。在他看来,终端能解决 Cursor 等代码编辑器力所不及的深层问题。

评测范式的革新

新旧路线的差异在评测标准中体现得尤为明显。基于代码的工具聚焦GitHub问题修复(SWE-Bench测试基础),本质是从错误代码迭代出可行方案。而终端工具则放眼更广阔的运行环境,涵盖代码编写之外的DevOps任务——从配置Git服务器到诊断脚本故障。

TerminalBench的题目设计极具代表性:有的要求根据解压程序逆向设计压缩算法,有的让AI自主下载源码编译Linux内核。“难点不仅在于问题本身,更在于我们构建的复杂环境,”联合创始人 Alex Shaw 解释道。这种分步解决问题的能力,正是自主AI的核心优势所在。

目前即便是顶尖模型也只能解决TerminalBench约半数问题——既说明评测的严苛性,也揭示终端工具仍有巨大潜力。但 Lloyd 强调,现有技术已能可靠处理大量非编码开发工作:“初始化项目、解决依赖项等日常事务,Warp基本可自主完成。若遇障碍,它还会清晰告知原因。”


文章标签: #AI编程 #终端工具 #开发者 #效率 #变革

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。