一场全新的人工智能编程挑战赛刚刚诞生了首位获胜者——同时也为AI软件工程师树立了新的标杆。

太平洋时间周三下午5点,非营利组织劳德研究所(Laude Institute)宣布了首届K奖(K Prize)得主。这项由DatabricksPerplexity联合创始人安迪·康温斯基(Andy Konwinski)发起的多轮AI编程竞赛,最终由巴西提示工程师爱德华多·罗查·德·安德拉德(Eduardo Rocha de Andrade)摘得桂冠,他将获得5万美元奖金。但比夺冠更令人惊讶的是他的最终得分:仅答对了测试中7.5%的题目。

Cover Image

“我们很高兴建立了一个真正具有挑战性的基准测试。”康温斯基表示,“如果要发挥价值,基准测试就应该保持难度。”他补充道:“如果大型实验室用他们最顶尖的模型参赛,结果可能会不同。但这正是关键所在——K奖采用离线模式运行且计算资源有限,因此更有利于中小型开源模型。我欣赏这种设定,它创造了公平竞争环境。”

康温斯基承诺,将向首个在测试中获得90%以上分数的开源模型提供100万美元奖励。

与著名的SWE-Bench系统类似,K奖通过GitHub上标记的问题来测试模型处理实际编程任务的能力。但SWE-Bench基于固定题库(允许模型针对性训练),而K奖则设计为“无污染的SWE-Bench版本”,采用限时提交机制防止针对性优化。首轮竞赛的模型提交截止日期为3月12日,组织方仅使用该日期后标记的GitHub问题构建测试题库。

7.5%的最高得分与SWE-Bench形成鲜明对比——后者当前在简易版“Verified”测试中的最高分为75%,在困难版“Full”测试中为34%。康温斯基尚不确定这种差异源于SWE-Bench的题库污染问题,还是单纯因为从GitHub收集新问题的挑战性,但他预计K奖项目很快会给出答案。

“随着竞赛轮次增加,我们会获得更清晰的认识。”他向TechCrunch透露,“因为我们预计参赛者会适应这种数月一度的竞争节奏。”

鉴于目前公开可用的AI编程工具已非常丰富,这个成绩看似出人意料。但随着既有基准测试逐渐丧失区分度,许多评论者认为K奖这类项目是解决AI评估体系缺陷的必要尝试。

普林斯顿大学研究员萨亚什·卡普尔(Sayash Kapoor)在近期论文中提出过类似观点:“我非常支持为现有基准开发新测试。没有这类实验,我们根本无法判断问题究竟源于数据污染,还是人类参与针对SWE-Bench排行榜的刻意优化。”

对康温斯基而言,这不仅是更优质的基准测试,更是对行业的公开挑战:“如果听信炒作言论,我们现在应该已经见到AI医生、AI律师和AI软件工程师了——但事实绝非如此。当我们连无污染版SWE-Bench的10%正确率都难以突破时,这就是最清醒的现实提醒。”


文章标签: #AI竞赛 #编程挑战 #基准测试 #开源模型 #K奖

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。