《塔尔萨之王》主演谈与史泰龙飙戏,加盟谢里丹犯罪剧
阅读全文

锤刻创思寰宇网
苹果(Apple)研究人员在受控谜题环境中测试了名为“大型推理模型(LRM)”的先进AI推理系统,发现这些模型在处理中等复杂度任务时优于“标准”大语言模型(LLM),但随着复杂度提升,两类模型都会完全失效。这家尚未处于AI发展前沿的公司认为,当前LRM和LLM在泛化推理能力——或者说模拟人类思维方式——方面存在根本性局限。
研究团队采用克劳德3.7十四行诗思维(Claude 3.7 Sonnet Thinking)和深度求索R1(DeepSeek-R1)等先进模型,通过汉诺塔、渡河问题等可精确调节难度的经典谜题,系统评估了AI应对复杂性递增任务的表现。有别于传统数学与编程测试,该研究特别关注模型内部推理过程与标准LLM在同等算力条件下的差异,试图揭示AI推理的真实能力边界。
实验显示:在简单任务中,未配备显式推理机制的标准LLM反而更精准高效,能以更低算力获得更好结果;当复杂度升至中等水平时,采用“思维链”等结构化推理的模型开始显现优势;但当复杂度继续提升时,所有模型的准确率都会归零——即便提供充足算力资源。(需注意克劳德3.7与深度求索R1存在训练数据局限)
深度分析推理轨迹后,研究人员发现反常现象:面对趋近失效阈值的难题时,推理模型竟会反常地缩短思考流程,尽管剩余算力充足;即便获得正确算法指导,模型仍无法可靠执行复杂任务的逐步指令,暴露出逻辑运算缺陷。研究还指出,模型在常见谜题与冷门谜题间表现差异显著,表明其成功更多依赖训练数据熟悉度,而非真正可泛化的推理能力。