Meta高管否认人为提升Llama4测试分数，称传言不实

Meta（原Facebook）一位高管驳斥了关于该公司为提升特定基准测试表现而调整新AI模型的传言。Meta生成式AI副总裁艾哈迈德·阿尔达勒（Ahmad Al-Dahle）在X平台发帖澄清，所谓“Meta使用测试集训练Llama 4 Maverick和Llama 4 Scout模型”的说法“完全不属实”。在AI基准测试中，测试集是用于评估已训练模型性能的数据集合，若直接在测试集上训练会人为夸大模型评分，造成性能虚高的假象。

Cover Image

上周末，关于Meta人为提升新模型基准测试结果的未经证实的传言在X和Reddit平台发酵。该传言疑似源自中国社交媒体某用户的发帖，该用户自称因抗议公司的基准测试操作规范而从Meta离职。传言升温的导火索包括：Maverick和Scout在部分任务中表现欠佳的报告，以及Meta决定采用实验性未发布版Maverick来提升LM Arena基准测试成绩的行为。X平台的研究人员发现，公开下载版Maverick与LM Arena托管版本存在显著行为差异。

阿尔达勒承认，不同云服务商托管的Maverick和Scout模型确实存在“质量波动”现象。他表示：“由于模型一经完成就立即发布，预计所有公开部署版本需要数日时间调试优化。我们将持续推进错误修复和合作伙伴接入工作。”

搜索结果如下

阅读全文

Meta高管否认人为提升Llama4测试分数，称传言不实

也可以看看

三星Galaxy Z Flip 7将搭载Exynos 2500，良品率低至20%，弃用骁龙芯片

阅读全文

巴法络50周年纪念，推出限量透明骨架硬盘

阅读全文

锈湖新作《Servant of the Lake》公布，玩家将探索神秘宅邸

阅读全文