人工智能实验室正越来越多地依赖Chatbot Arena等众包基准测试平台来检验最新模型的优缺点。但部分专家指出,这种方式从伦理和学术角度来看存在显著问题。
近年来,包括OpenAI、谷歌(Google)和Meta在内的实验室纷纷启用招募用户评估新模型能力的平台。当某款模型获得高分时,研发实验室通常会将此视为实质性改进的证据。
华盛顿大学语言学教授、《AI骗局》合著者艾米莉·本德指出,这种模式存在根本性缺陷。她对Chatbot Arena提出特别批评——该平台要求志愿者同时向两个匿名模型提问,并选择更偏好的回答。“有效的基准测试必须针对特定指标,且具备结构效度。这意味着需要证据表明:测试目标明确定义,且测量结果确实与目标相关。”本德强调,“但Chatbot Arena尚未证明投票选择与用户偏好存在必然关联。”
人工智能公司Lesan联合创始人阿斯梅拉什·特卡·哈德古认为,这类基准测试正被AI实验室“挪用”来“夸大宣传效果”。他以Meta近期卷入的Llama 4 Maverick模型争议为例:该公司专门针对Chatbot Arena优化了某个版本,却在发布时改用性能更差的版本。“基准测试应是动态而非静态数据集,”哈德古主张,“应该由多个独立实体(如机构或高校)分布式管理,并针对教育、医疗等具体应用场景定制——最好由实际使用这些模型的从业者参与设计。”
曾领导阿斯彭研究所新兴智能技术计划的克里斯汀·格洛丽亚提出,模型评估者应获得合理报酬。格洛丽亚警告AI实验室应吸取数据标注行业的教训,该行业曾因剥削性操作声名狼藉(部分实验室也被指控存在类似行为)。“总体而言,众包基准测试具有价值,让我联想到公民科学倡议。”她表示,“理想情况下,它能引入多元视角以深化模型评估与微调。但基准测试绝不应成为唯一标准——随着行业快速创新,这些指标可能迅速失效。”
运营模型众包红队测试的Gray Swan AI首席执行官马特·弗雷德里克森透露,志愿者参与其平台有诸多动机,包括“学习新技能”(该平台对部分测试发放现金奖励)。但他承认公共基准测试“无法替代”付费的私人评估。“开发者还需依赖内部基准、算法红队及具备专业领域知识的签约红队成员,”弗雷德里克森强调,“无论采用众包或其他形式,模型开发者和基准创建者都应清晰传达结果,并在受质疑时及时回应。”
刚与OpenAI合作提前开放GPT-4.1测试的模型平台OpenRouter首席执行官亚历克斯·阿塔拉表示,仅靠公开测试与基准“远远不够”。Chatbot Arena维护方LMArena联合创始人、加州大学伯克利分校AI博士生蒋伟林(音译)持相同观点:“我们完全支持其他测试方式。目标是创建可信的开放空间,真实反映社区对不同AI模型的偏好。”
蒋伟林指出,Maverick评分差异等事件并非平台设计缺陷所致,而是实验室曲解政策的结果。LMArena已更新政策“强化对公平、可复现评估的承诺”以防止类似事件。“我们的社区成员并非志愿者或模型测试员,”他特别说明,“用户选择LMArena是因为这里提供了透明开放的AI交互空间。只要排行榜如实反映社区意见,我们欢迎分享结果。”