Meta公司近日因在众包基准测试平台LM Arena使用未发布的Llama 4 Maverick实验版本模型获取高分而引发争议。该事件导致LM Arena运营方公开致歉并修改评分政策,经重新评估后发现未经修改的原版Maverick模型实际竞争力明显不足。

Cover Image

根据上周五最新数据,原版“Llama-4-Maverick-17B-128E-Instruct”模型在排名中显著落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及谷歌的Gemini 1.5 Pro等多个月前已发布的竞品。

针对性能差异问题,Meta通过上周六发布的图表作出说明:其实验版本“Llama-4-Maverick-03-26-Experimental”“专为对话场景优化”的特殊版本。这种针对性优化恰好匹配了LM Arena的人工评审机制——该平台通过对比不同模型输出结果进行偏好选择。

值得注意的是,虽然LM Arena的评估机制本身存在局限性,但通过特定优化手段提升基准测试成绩的做法不仅可能产生误导,还会导致开发者难以准确预判模型在真实应用场景中的实际表现。

Meta发言人向TechCrunch表示:“我们测试了多种定制化版本,其中对话优化版本在LM Arena上表现优异。目前开源版本已正式发布,期待见证开发者基于Llama 4构建个性化解决方案,我们将持续收集用户反馈。”


文章标签: #Meta #Llama4 #刷榜 #AI测试 #争议

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。