Llama风波，Meta用实验性AI模型刷榜引公平性质疑

Meta（原Facebook）上周末发布了两款Llama 4系列AI新模型——轻量级“侦察兵”（Scout）和中量级“独行侠”（Maverick）。公司宣称后者在多项主流测试中表现超越ChatGPT-4o和Gemini 2.0 Flash，但测试过程中似乎存在未向用户披露的关键信息。

Cover Image

这家科技巨头因在公开基准测试中使用定制优化模型而引发争议，被指控存在性能宣传误导。Maverick发布后迅速登上LMArena排行榜亚军，试图冲击榜首位置。LMArena是一个通过用户投票比较AI回答相关性与准确性的开放式平台。

Meta曾高调宣布Maverick获得1417 ELO评分，超越GPT-4o且略逊于Gemini 2.5 Pro。看似创造了能抗衡业界顶级模型的产品，但很快有用户发现评测数据存在异常。Meta随后承认提交给LMArena的并非公开版本，而是经过对话优化的实验性聊天模型“Llama-4-Maverick-03-26-Experimental”。

针对此事，LMArena发表声明称：“Meta对我们政策的理解与模型提供方的预期不符”，并要求其提高透明度。该平台已修改排行榜政策以确保公平性。Meta发言人回应称：“开源版本现已发布，开发者可基于Llama 4进行个性化定制”。

虽然未违反平台规则，但此举引发对“刷榜”行为的质疑。独立AI研究员西蒙·威利森坦言：“当Llama 4获得第二名时我深受震撼，现在懊恼没细读细则……这个高分对我毫无价值，因为我根本用不到那个特殊优化版本”。

另有传言称Meta针对测试集优化模型，公司生成式AI副总裁艾哈迈德·阿尔-达赫勒予以否认：“所谓针对测试集训练的指控完全不实”。当用户质疑为何选在周日发布时，扎克伯格简单回应：“因为那时准备好了”。在AI领域的激烈竞争中，Meta这次显然做足了技术准备，行业将持续关注后续发展动态。

搜索结果如下

阅读全文

Llama风波，Meta用实验性AI模型刷榜引公平性质疑

也可以看看

《上古卷轴4重制版》藏彩蛋，致敬2010年代经典网络迷因

阅读全文

苹果手表SE3或迎大屏升级，将推41和45毫米版本

阅读全文

宏碁推600Hz电竞屏，刷新率破纪录

阅读全文