上周六Meta发布的新旗舰AI模型之一“独行侠”(Maverick)在LM Arena测试中位列第二,该测试通过人工评估员对比不同模型的输出结果进行偏好选择。但Meta提交至LM Arena的版本似乎与开发者广泛可用的版本存在差异。
多位AI研究者在社交平台指出,Meta在公告中注明LM Arena上的“独行侠”是“实验性聊天版本”。而Llama官网的图表披露,Meta的LM Arena测试使用的是“针对对话优化的Llama 4独行侠”版本。
正如我们此前报道,由于种种原因,LM Arena从来就不是衡量AI模型性能的最可靠标准。但AI公司通常不会为了在该测试中获得更好成绩而专门定制或微调模型——至少从未公开承认过这种做法。
这种为基准测试量身定制模型却暂不发布,转而推出“基础版”的做法,会导致开发者难以准确预测模型在特定场景的实际表现。本质上这是一种误导行为。理想情况下,基准测试(尽管存在明显不足)应该能全面反映单个模型在不同任务中的优劣势。
社交平台的研究者发现,公开下载的“独行侠”与LM Arena托管版本存在显著行为差异:后者频繁使用表情符号,且回答冗长得令人难以置信。