AI编程工具转向终端，开发者效率迎来新变革

多年来，Cursor、Windsurf 和 GitHub Copilot 等代码编辑工具一直是人工智能辅助软件开发的标准配置。但随着自主人工智能（agentic AI）能力增强与氛围编程（vibe coding）兴起，AI系统与软件的交互方式正悄然转变。

Cover Image

这些工具不再局限于代码层面，而是越来越多地直接与所安装系统的终端（shell）交互。这一变革虽然低调，却对AI驱动软件开发的未来方向具有深远影响。

终端工具的复兴

终端——这种黑白界面的古老交互方式因90年代黑客电影闻名，虽不如现代代码编辑器视觉华丽，却是掌握者手中的利器。当基于代码的AI代理还在编写调试程序时，终端工具早已承担着将代码转化为可运行软件的关键桥梁。

行业风向标已然显现：自今年2月起，Anthropic、DeepMind 和 OpenAI 相继推出命令行编码工具（分别为 Claude Code、Gemini CLI 和 CLI Codex），这些产品迅速成为各公司最受欢迎的作品。虽然沿用原有品牌名称，但其底层交互逻辑已发生实质性变革。

“我们坚信，未来95%的大语言模型与计算机交互都将通过类终端界面完成，”专注终端性能评测的 Terminal-Bench 联合创始人 Mike Merrill 如此预言。

传统工具的瓶颈

终端工具的崛起恰逢传统代码工具显露疲态。AI代码编辑器 Windsurf 因高管被谷歌挖角、剩余业务被 Cognition 收购而分崩离析，消费者产品的长期前景蒙上阴影。

更严峻的是，METR研究所 针对 Cursor Pro（Windsurf主要竞品）的测试显示：尽管开发者预估能提速20%-30%，实际观测到的效率反而降低近20%。这种预期与现实的落差，为 Warp 等终端工具提供了绝佳机遇——该产品目前占据Terminal-Bench榜首，定位为“自主开发环境”，介于IDE与传统命令行工具之间的新形态。

“终端处于开发者技术栈的最底层，因此成为运行AI代理最具扩展性的平台，”Warp创始人 Zach Lloyd 指出。在他看来，终端能解决 Cursor 等代码编辑器力所不及的深层问题。

评测范式的革新

新旧路线的差异在评测标准中体现得尤为明显。基于代码的工具聚焦GitHub问题修复（SWE-Bench测试基础），本质是从错误代码迭代出可行方案。而终端工具则放眼更广阔的运行环境，涵盖代码编写之外的DevOps任务——从配置Git服务器到诊断脚本故障。

TerminalBench的题目设计极具代表性：有的要求根据解压程序逆向设计压缩算法，有的让AI自主下载源码编译Linux内核。“难点不仅在于问题本身，更在于我们构建的复杂环境，”联合创始人 Alex Shaw 解释道。这种分步解决问题的能力，正是自主AI的核心优势所在。

目前即便是顶尖模型也只能解决TerminalBench约半数问题——既说明评测的严苛性，也揭示终端工具仍有巨大潜力。但 Lloyd 强调，现有技术已能可靠处理大量非编码开发工作：“初始化项目、解决依赖项等日常事务，Warp基本可自主完成。若遇障碍，它还会清晰告知原因。”

搜索结果如下

阅读全文

AI编程工具转向终端，开发者效率迎来新变革

终端工具的复兴

传统工具的瓶颈

评测范式的革新

也可以看看

Xbox游戏通行证10月21日首发大作，忍者龙剑传4震撼登场

阅读全文

艾玛斯通新片《布谷尼亚》设光头专场，观众须剃发呼应剧情

阅读全文

神力科莎拉力赛公布，11月PC平台开启抢先体验

阅读全文