Meta新AI模型测试涉嫌误导，基准版与公开版差异大

菠萝老师先生 | 2025年4月7日

分类： 人工智能 | 1 分钟 | 485 个字

上周六Meta发布的新旗舰AI模型之一“独行侠”（Maverick）在LM Arena测试中位列第二，该测试通过人工评估员对比不同模型的输出结果进行偏好选择。但Meta提交至LM Arena的版本似乎与开发者广泛可用的版本存在差异。

Cover Image

多位AI研究者在社交平台指出，Meta在公告中注明LM Arena上的“独行侠”是“实验性聊天版本”。而Llama官网的图表披露，Meta的LM Arena测试使用的是“针对对话优化的Llama 4独行侠”版本。

正如我们此前报道，由于种种原因，LM Arena从来就不是衡量AI模型性能的最可靠标准。但AI公司通常不会为了在该测试中获得更好成绩而专门定制或微调模型——至少从未公开承认过这种做法。

这种为基准测试量身定制模型却暂不发布，转而推出“基础版”的做法，会导致开发者难以准确预测模型在特定场景的实际表现。本质上这是一种误导行为。理想情况下，基准测试（尽管存在明显不足）应该能全面反映单个模型在不同任务中的优劣势。

社交平台的研究者发现，公开下载的“独行侠”与LM Arena托管版本存在显著行为差异：后者频繁使用表情符号，且回答冗长得令人难以置信。

文章标签： #AI测试 #Meta #模型差异 #误导 #基准测试

负责编辑

菠萝老师先生

让你的每一个瞬间都充满意义地生活，因为在生命的尽头，衡量的不是你活了多少年，而是你如何度过这些年。

也可以看看

AMD多款处理器路线图曝光，涵盖美杜莎点、声波等新品

2025年5月2日 | 2 分钟 | 588 个字
分类：电脑

AMD曝光多款处理器新品路线图，包括Zen5架构的美杜莎点移动系列、Zen6架构的声波混合核心设计，以及96核工作站处理器岛田峰等。

阅读全文

assets/AMD-Zen-5-Ryzen-CPU-Families-Granite-Ridge-Fire-Range-Strix-Halo-Strix-Krackan-Main.jpeg

多邻国推148门AI语言课，转型AI优先引争议

2025年5月2日 | 2 分钟 | 611 个字
分类： 人工智能

多邻国推出148门AI生成语言课程，创平台最大规模内容扩张。CEO称AI使开发效率提升12倍，但裁员外包员工引发用户抵制，部分人指出AI课程质量下降。新课程含阅读听力功能，未来将推高阶内容。

阅读全文

assets/duolingo-ai.jpeg

谷歌计划2025年中前，与苹果达成Gemini AI合作

2025年5月2日 | 3 分钟 | 1386 个字
分类： 人工智能

谷歌CEO皮查伊在法庭证词中透露，公司正与苹果商讨将Gemini AI整合至苹果智能系统，目标2025年中前达成协议。Gemini将提升Siri等功能的智能体验，但可能面临隐私限制。

阅读全文

assets/63463-131922-IMG_1548-xl.jpeg