研究指控LM Arena操纵AI榜单，科技巨头涉嫌刷榜

人工智能实验室Cohere、斯坦福大学、麻省理工学院和AI2联合发布的最新研究报告指出，热门众包AI基准测试平台Chatbot Arena背后的运营机构LM Arena存在操作排行榜嫌疑。该平台被指控允许部分头部AI企业通过选择性公开测试结果来提升排名优势。

Cover Image

研究数据显示，Meta（原Facebook）、OpenAI、谷歌和亚马逊等企业获得私下测试多个模型变体的权限，但仅公布表现最优版本的成绩。这种操作模式使这些公司更容易占据排行榜前列，而中小型竞争对手难以获得同等测试机会。

“这种私下测试渠道形成信息差，某些企业获得的测试规模达到同行十倍以上。”Cohere人工智能研究副总裁莎拉·胡克(Sara Hooker)在采访中强调，“本质上形成了排行榜游戏化的恶性竞争。”

作为2023年发源于加州大学伯克利分校的学术项目，Chatbot Arena采用双盲“对战”机制：用户通过对比两个匿名AI模型的回答质量进行投票。该平台目前已成为行业主流评估体系，常出现未公开的匿名模型参与竞技。

研究团队自2024年11月起监测了280万场模型对战数据，发现科技巨头通过高频次测试建立显著优势。以Meta的Llama 4为例，在2024年1月至3月预发布期间，该公司私下测试了27个模型变体，最终仅公布表现最佳版本的评分。这种采样率优势理论上可使模型在特定测试中性能提升达112%。

面对指控，LM Arena联合创始人伊昂·斯托伊卡(Ion Stoica)教授回应称研究存在“不实陈述”，并强调平台坚持公平原则。官方声明指出：“测试量差异不构成不公平待遇，所有模型提供方均可通过增加测试样本优化表现。”

值得关注的是，该研究采用企业自报归属的“自我识别”机制进行模型归类，存在一定方法论局限。但胡克透露，LM Arena对核心数据结论并未提出实质性反驳。截至发稿时，Meta、OpenAI和谷歌等涉事企业均未回应置评请求。

研究团队建议LM Arena实施三项改革：设立私下测试次数上限、强制公开所有测试成绩、建立第三方监督机制。平台方则在社交平台X回应称，自2024年3月起已公布预发布测试信息，并认为“展示未公开模型评分缺乏实际意义”。

此次争议正值LM Arena启动公司化运营之际。此前Meta就因针对Llama 4的“刷榜”行为遭受批评——该公司通过优化专项版本冲击排名，却未实际发布该版本。随着私营测评机构商业化进程加速，如何平衡商业利益与评估公信力成为行业焦点。

搜索结果如下

阅读全文

研究指控LM Arena操纵AI榜单，科技巨头涉嫌刷榜

也可以看看

谷歌AI模式扩大开放，新增多项实用功能

阅读全文

《威龙杀阵2》官宣，盖·里奇与吉伦哈尔再联手

阅读全文

法院强制裁定苹果让步，堡垒之夜重返美国iOS

阅读全文