Meta原版Llama4评分垫底，对话优化版涉嫌刷榜

菠萝老师先生 | 2025年4月13日

分类： 人工智能 | 2 分钟 | 577 个字

Meta公司近日因在众包基准测试平台LM Arena使用未发布的Llama 4 Maverick实验版本模型获取高分而引发争议。该事件导致LM Arena运营方公开致歉并修改评分政策，经重新评估后发现未经修改的原版Maverick模型实际竞争力明显不足。

Cover Image

根据上周五最新数据，原版“Llama-4-Maverick-17B-128E-Instruct”模型在排名中显著落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及谷歌的Gemini 1.5 Pro等多个月前已发布的竞品。

针对性能差异问题，Meta通过上周六发布的图表作出说明：其实验版本“Llama-4-Maverick-03-26-Experimental”是“专为对话场景优化”的特殊版本。这种针对性优化恰好匹配了LM Arena的人工评审机制——该平台通过对比不同模型输出结果进行偏好选择。

值得注意的是，虽然LM Arena的评估机制本身存在局限性，但通过特定优化手段提升基准测试成绩的做法不仅可能产生误导，还会导致开发者难以准确预判模型在真实应用场景中的实际表现。

Meta发言人向TechCrunch表示：“我们测试了多种定制化版本，其中对话优化版本在LM Arena上表现优异。目前开源版本已正式发布，期待见证开发者基于Llama 4构建个性化解决方案，我们将持续收集用户反馈。”

文章标签： #Meta #Llama4 #刷榜 #AI测试 #争议

负责编辑

菠萝老师先生

让你的每一个瞬间都充满意义地生活，因为在生命的尽头，衡量的不是你活了多少年，而是你如何度过这些年。

也可以看看

高通加速业务多元化布局，芯片年销69.3亿美元仍难抵苹果流失危机

2025年5月2日 | 2 分钟 | 795 个字
分类：科技

高通2025财年Q2营收108.4亿美元超预期，但面临苹果2027年终止合作及中国厂商竞争。汽车业务增长59%，多元化战略能否弥补未来缺口待观察。

阅读全文

assets/Qualcomm-5G-modem.jpeg

蕾切尔泽格勒联手漫威梅姨，主演新喜剧《遗传我妈》

2025年5月2日 | 2 分钟 | 804 个字
分类：影视

迪士尼新白雪公主蕾切尔泽格勒将搭档奥斯卡得主玛丽莎托梅，主演喜剧《遗传我妈》，讲述一对母女荒诞又温情的重逢故事。

阅读全文

assets/rachel-zegler-in-snow-white.jpeg

漫威高管揭秘，为何《雷霆特攻队》是反多元宇宙之作

2025年5月2日 | 2 分钟 | 684 个字
分类：影视

漫威新片《雷霆特攻队》将回归现实基调，聚焦角色内心挣扎。影片虽独立却承上启下，片尾彩蛋联动《神奇四侠》与《复仇者联盟》，为MCU未来布局埋下伏笔。

阅读全文

assets/florence-pugh-in-thunderbolts.jpeg