Meta(原Facebook)一位高管驳斥了关于该公司为提升特定基准测试表现而调整新AI模型的传言。Meta生成式AI副总裁艾哈迈德·阿尔达勒(Ahmad Al-Dahle)在X平台发帖澄清,所谓“Meta使用测试集训练Llama 4 Maverick和Llama 4 Scout模型”的说法“完全不属实”。在AI基准测试中,测试集是用于评估已训练模型性能的数据集合,若直接在测试集上训练会人为夸大模型评分,造成性能虚高的假象。

Cover Image

上周末,关于Meta人为提升新模型基准测试结果的未经证实的传言在X和Reddit平台发酵。该传言疑似源自中国社交媒体某用户的发帖,该用户自称因抗议公司的基准测试操作规范而从Meta离职。传言升温的导火索包括:Maverick和Scout在部分任务中表现欠佳的报告,以及Meta决定采用实验性未发布版Maverick来提升LM Arena基准测试成绩的行为。X平台的研究人员发现,公开下载版Maverick与LM Arena托管版本存在显著行为差异。

阿尔达勒承认,不同云服务商托管的Maverick和Scout模型确实存在“质量波动”现象。他表示:“由于模型一经完成就立即发布,预计所有公开部署版本需要数日时间调试优化。我们将持续推进错误修复和合作伙伴接入工作。”


文章标签: #Meta #AI测试 #Llama4 #作弊传言 #高管回应

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。