Meta在周六非工作日突然发布了Llama系列AI模型的最新成员——Llama 4系列。该系列包含四款新型号:Llama 4 Scout(侦察兵)、Llama 4 Maverick(独行侠)以及尚在训练中的Llama 4 Behemoth(巨兽)。据Meta透露,这些模型通过“海量未标注文本、图像及视频数据”训练,已具备“广泛的视觉理解能力”

GettyImages-2173579488

有消息称,中国AI实验室深度求索(DeepSeek)开源模型的成功是推动Llama加速研发的关键因素——其R1和V3等模型性能已超越Meta前代旗舰产品。据报道,Meta甚至紧急组建“作战室”研究深度求索降低模型运行部署成本的秘诀。

目前Scout与Maverick已在Llama.com及Hugging Face等合作平台开放使用,而Behemoth仍在训练中。Meta宣布其旗下WhatsApp、Messenger和Instagram等应用内置的AI助手Meta AI已完成升级,现已在40个国家启用Llama 4技术,不过多模态功能目前仅限美国英语用户。

Llama 4的授权协议引发部分开发者争议。欧盟境内注册或主营的企业用户被禁止使用或分发这些模型,这显然是为了应对当地AI与数据隐私法规的监管要求(Meta曾公开批评这些法规限制过度)。此外,与以往版本相同,月活用户超7亿的企业需向Meta申请特殊授权,而Meta拥有绝对审批权。

“Llama 4标志着该生态系统新时代的开端。”Meta在官方博客中宣称,“这仅仅是Llama 4系列的第一篇章。”

技术架构方面,Llama 4首次采用混合专家(MoE)系统,这种能效更高的架构将数据处理任务分解后分配给小型专业化“专家”模型。以Maverick为例,虽然总参数量达4000亿,但通过128个“专家”模型仅激活170亿参数(参数规模大致对应模型解决问题的能力)。Scout则拥有170亿激活参数、16个专家模型和1090亿总参数量。

Meta内部测试显示,擅长创意写作等“通用助手与对话”场景的Maverick,在编程、推理、多语言处理、长上下文理解及图像基准测试中超越了OpenAI的GPT-4o和谷歌Gemini 2.0,但仍不及谷歌Gemini 2.5 Pro、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5等最新顶级模型。

Scout的核心优势在于文档摘要与大型代码库推理,其上下文窗口高达1000万token(token是文本的基本单元,如“fantastic”可拆分为“fan”“tas”“tic”)。简言之,它能同时处理数百万单词量级的超长文档。根据Meta测算,Scout可在单块英伟达H100 GPU上运行,而Maverick需要英伟达H100 DGX系统或同级配置。

尚未发布的Behemoth对硬件要求更为苛刻:2880亿激活参数、16个专家模型及近2万亿总参数。Meta内部基准测试表明,在数学解题等STEM能力评估中,其表现已超越GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro(但不及2.5 Pro)。值得注意的是,Llama 4全系都未配备类似OpenAI o1/o3-mini的专用“推理”架构——这类模型会核查答案事实性,响应更可靠但耗时更长。

耐人寻味的是,Meta宣称Llama 4大幅减少了针对“争议性”问题的拒答率。相比前代产品,新版模型会回应更多涉及政治社会的敏感话题,同时在“拒绝响应”的触发条件上也“显著更平衡”。Meta发言人向TechCrunch表示:“用户可以信赖Llama 4提供客观、有帮助的答案……我们正持续提升其响应能力,使其能应对多元观点……不偏袒任何立场。”

这些调整正值白宫盟友指责AI聊天机器人过度“觉醒”之际。包括亿万富翁埃隆·马斯克和加密货币与AI“沙皇”大卫·萨克斯在内的特朗普核心圈人物,多次指控主流AI工具审查保守派观点。萨克斯曾特别点名OpenAI的ChatGPT“被编程得过于觉醒”,在政治话题上缺乏真实性。

实际上,AI偏见是业界公认的技术难题。就连马斯克自己的xAI公司也未能打造出完全中立的聊天机器人。但这并未阻止OpenAI等企业持续调整模型,使其能够回应更多争议性议题。


文章标签: #AI #Meta #Llama4 #大模型 #人工智能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。