人工智能实验室Cohere、斯坦福大学、麻省理工学院和AI2联合发布的最新研究报告指出,热门众包AI基准测试平台Chatbot Arena背后的运营机构LM Arena存在操作排行榜嫌疑。该平台被指控允许部分头部AI企业通过选择性公开测试结果来提升排名优势。

Cover Image

研究数据显示,Meta(原Facebook)、OpenAI、谷歌和亚马逊等企业获得私下测试多个模型变体的权限,但仅公布表现最优版本的成绩。这种操作模式使这些公司更容易占据排行榜前列,而中小型竞争对手难以获得同等测试机会。

“这种私下测试渠道形成信息差,某些企业获得的测试规模达到同行十倍以上。”Cohere人工智能研究副总裁莎拉·胡克(Sara Hooker)在采访中强调,“本质上形成了排行榜游戏化的恶性竞争。”

作为2023年发源于加州大学伯克利分校的学术项目,Chatbot Arena采用双盲“对战”机制:用户通过对比两个匿名AI模型的回答质量进行投票。该平台目前已成为行业主流评估体系,常出现未公开的匿名模型参与竞技。

研究团队自2024年11月起监测了280万场模型对战数据,发现科技巨头通过高频次测试建立显著优势。以Meta的Llama 4为例,在2024年1月至3月预发布期间,该公司私下测试了27个模型变体,最终仅公布表现最佳版本的评分。这种采样率优势理论上可使模型在特定测试中性能提升达112%

面对指控,LM Arena联合创始人伊昂·斯托伊卡(Ion Stoica)教授回应称研究存在“不实陈述”,并强调平台坚持公平原则。官方声明指出:“测试量差异不构成不公平待遇,所有模型提供方均可通过增加测试样本优化表现。”

值得关注的是,该研究采用企业自报归属的“自我识别”机制进行模型归类,存在一定方法论局限。但胡克透露,LM Arena对核心数据结论并未提出实质性反驳。截至发稿时,Meta、OpenAI和谷歌等涉事企业均未回应置评请求。

研究团队建议LM Arena实施三项改革:设立私下测试次数上限、强制公开所有测试成绩、建立第三方监督机制。平台方则在社交平台X回应称,自2024年3月起已公布预发布测试信息,并认为“展示未公开模型评分缺乏实际意义”。

此次争议正值LM Arena启动公司化运营之际。此前Meta就因针对Llama 4的“刷榜”行为遭受批评——该公司通过优化专项版本冲击排名,却未实际发布该版本。随着私营测评机构商业化进程加速,如何平衡商业利益与评估公信力成为行业焦点。


文章标签: #AI测评 #榜单操纵 #科技巨头 #不公平竞争 #行业规范

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。