高开低走的开局
本月初Meta发布的Llama 4令开发者大失所望,多项基准测试分数落后于深度求索R1和V3等模型。这与当年突破边界的Llama系列已不可同日而语。
去年夏季Llama 3.1 405B问世时,CEO马克·扎克伯格(Mark Zuckerberg)曾高调宣称这是重大胜利。Meta在博客中将其誉为“性能最强的开源基础模型”,表现直逼OpenAI当时的旗舰产品GPT-4o。
这款惊艳的模型确实令Meta在AI开发者中备受追捧。旧金山AGI House多年赛事主办人杰里米·尼克松(Jeremy Nixon)称Llama 3的发布是“历史性时刻”。据Hugging Face产品增长负责人杰夫·布迪埃(Jeff Boudier)透露,目前Llama 3.3的下载量仍高于Llama 4。
基准测试争议
Meta为Llama 4系列中的Maverick模型特别优化了“对话能力”,使其在众包基准测试LM Arena中登顶。但实际广泛发布的版本表现却大相径庭,引发开发者社区强烈不满。
LM Arena联合创始人、加州大学伯克利分校教授伊昂·斯托伊卡(Ion Stoica)直言:“Meta应该明确告知测试版与发布版的差异,这种操作会损耗社区信任。”这位同时创立Anyscale和Databricks的学者表示,Meta只能通过发布更优质模型来挽回声誉。
缺失的推理模块
更致命的短板在于Llama 4全系未配备AI推理模型——这种能缜密分析问题的技术已成为行业标配。AI2研究所研究员内森·兰伯特(Nathan Lambert)指出,这种仓促发布的迹象令人费解:“当所有竞争者都在展示推理模型时,Meta为何不能耐心等待完善?”
压力正来自四面八方:本周阿里巴巴刚发布的Qwen 3模型,据称已在编程基准测试Codeforces上超越OpenAI和谷歌的顶级编程模型。
背水一战
纽约大学数据科学中心研究员拉维德·施瓦茨-齐夫(Ravid Schwartz-Ziv)认为,Meta要重夺开源模型领导地位,必须大胆采用新技术推出突破性产品。但据《财富》报道,其AI实验室正经历“缓慢死亡”,AI研究副总裁乔尔·皮诺(Joelle Pineau)本月也宣布离职。
这场开发者大会将成为Meta展示技术储备的关键舞台。若无法拿出令人信服的成果,这家昔日的开源先锋恐将在白热化竞争中进一步掉队。