研究显示AI编程工具未必提速，资深开发者效率反降

近年来，Cursor和GitHub Copilot等AI编程工具的涌现彻底改变了软件工程师的工作流程。这些由OpenAI、Google DeepMind、Anthropic和xAI提供技术支持的工具承诺通过自动编写代码、修复错误和测试变更来提升效率。然而非营利AI研究组织METR周四发布的最新研究，对当前AI编程工具能否有效提升资深开发者的工作效率提出了质疑。

Cover Image

研究方法与发现

METR通过招募16位经验丰富的开源开发者进行随机对照试验，要求他们在日常维护的大型代码库中完成246项实际任务。研究人员将其中约半数任务随机指定为“允许使用AI”组（可使用Cursor Pro等尖端AI工具），另一半则禁止使用AI工具。

尽管开发者们事先预测AI工具能缩短24%的任务耗时，但结果却出人意料——允许使用AI反而使任务完成时间增加了19%。值得注意的是，参与研究的开发者中仅56%有Cursor使用经验，虽然94%的开发者曾在工作流程中使用过基于网页的大型语言模型，但本次研究是部分人首次接触特定工具Cursor。

研究人员指出几个可能导致效率降低的关键因素：开发者在使用所谓“氛围编码器（vibe coders）”时，花费大量时间构思提示词和等待AI响应，而非直接编码；同时AI在处理本试验采用的大型复杂代码库时表现欠佳。

研究团队谨慎强调，这些发现不应被视为对AI工具的全面否定。其他大规模研究已证实AI编程工具确实能加速工程师工作流程，且近年来AI在完成复杂长期任务方面已有显著进步。作者特别指出，随着AI技术的快速发展，即便三个月后重复实验都可能获得不同结果。

这项研究为质疑AI编程工具的效能承诺增添了新证据。其他研究已表明，当前AI工具可能引入错误甚至安全隐患。这些发现提示开发者不应盲目认为AI工具能立即提升工作效率，尤其是那些被称为“氛围编码器”的解决方案。