最近,人工智能领域出现了一种奇特的测试,引发了X平台上众多AI爱好者的关注。这个测试要求AI模型编写一个Python脚本,实现一个黄色小球在一个形状内弹跳的效果,同时让这个形状缓慢旋转,并确保小球始终不会离开形状。

Screenshot_2025-01-24_at_12.29.00a_¯PM-transformed

这种看似简单的任务,却成了检验AI编程能力的“试金石”。一些AI模型在这个任务上表现突出。比如,中国人工智能实验室DeepSeek推出的免费R1模型,就在测试中轻松击败了OpenAI的o1专业模式,而后者作为OpenAI ChatGPT Pro计划的一部分,每月收费高达200美元。

然而,Anthropic的Claude 3.5 Sonnet和谷歌的Gemini 1.5 Pro模型却在物理判断上出现了失误,导致小球从形状中“逃逸”。不过,也有谷歌的Gemini 2.0 Flash Thinking Experimental和OpenAI较早的GPT-4o模型一次性通过了测试。

那么,AI能否完成这样的编程任务,又能说明什么呢?其实,模拟一个弹跳的小球一直是编程领域的经典挑战。要实现准确的模拟,关键在于碰撞检测算法,它能够判断小球和形状边缘何时发生碰撞。如果算法编写得不够严谨,就可能出现性能问题或者明显的物理错误。

N8程序员是人工智能初创公司Nous Research的研究员,他在X平台上分享了自己的经验。他表示,自己花了大约两个小时才从零开始编写出一个在旋转七边形内弹跳的小球的代码。他解释说:“编写这样的代码需要同时跟踪多个坐标系,处理不同坐标系中的碰撞,并且从一开始就设计出健壮的代码架构。”

尽管弹跳小球和旋转形状的测试可以考察编程能力,但它并不是一个科学严谨的AI基准测试。因为即使提示有细微的变化,测试结果也会大不相同。这也是为什么有些用户觉得o1表现更好,而另一些用户则认为R1没有达到预期。

这种“病毒式”的测试其实也反映了人工智能领域的一个核心问题:如何为AI模型建立有效的评估体系。目前,不同的AI模型之间很难进行直观的比较,因为现有的很多基准测试都过于晦涩,与大多数人的实际需求并不相关。

不过,目前行业内已经在努力改进这一现状。比如,ARC-AGI基准测试和“人类最后的考试”等新的测试方法正在探索中。我们不妨拭目以待这些新测试的效果,同时也可以欣赏一下那些小球在旋转形状中弹跳的有趣动画。


文章标签: #人工智能 #编程 #模型评估 #碰撞检测 #坐标系

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。