Meta(原Facebook)上周末发布了两款Llama 4系列AI新模型——轻量级“侦察兵”(Scout)和中量级“独行侠”(Maverick)。公司宣称后者在多项主流测试中表现超越ChatGPT-4o和Gemini 2.0 Flash,但测试过程中似乎存在未向用户披露的关键信息。
这家科技巨头因在公开基准测试中使用定制优化模型而引发争议,被指控存在性能宣传误导。Maverick发布后迅速登上LMArena排行榜亚军,试图冲击榜首位置。LMArena是一个通过用户投票比较AI回答相关性与准确性的开放式平台。
Meta曾高调宣布Maverick获得1417 ELO评分,超越GPT-4o且略逊于Gemini 2.5 Pro。看似创造了能抗衡业界顶级模型的产品,但很快有用户发现评测数据存在异常。Meta随后承认提交给LMArena的并非公开版本,而是经过对话优化的实验性聊天模型“Llama-4-Maverick-03-26-Experimental”。
针对此事,LMArena发表声明称:“Meta对我们政策的理解与模型提供方的预期不符”,并要求其提高透明度。该平台已修改排行榜政策以确保公平性。Meta发言人回应称:“开源版本现已发布,开发者可基于Llama 4进行个性化定制”。
虽然未违反平台规则,但此举引发对“刷榜”行为的质疑。独立AI研究员西蒙·威利森坦言:“当Llama 4获得第二名时我深受震撼,现在懊恼没细读细则……这个高分对我毫无价值,因为我根本用不到那个特殊优化版本”。
另有传言称Meta针对测试集优化模型,公司生成式AI副总裁艾哈迈德·阿尔-达赫勒予以否认:“所谓针对测试集训练的指控完全不实”。当用户质疑为何选在周日发布时,扎克伯格简单回应:“因为那时准备好了”。在AI领域的激烈竞争中,Meta这次显然做足了技术准备,行业将持续关注后续发展动态。