Meta Llama 4 模型上线

作者: CBISMB

责任编辑: 张金祥

来源: ISMB

时间: 2025-04-07 10:28

关键字: Meta,Llama 4,开源,欧盟

浏览: 21

点赞: 0

收藏: 0

近日Meta终于端出了Llama 4这盘开原大餐,共分为四种模型,分别为Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth,所有模型均经过“大量未标记的文本、图像和视频数据”的训练,具备“广泛的视觉理解”能力。

由于DeepSeek的开放模型在性能上取得了显著突破,与Meta之前的旗舰Llama模型相当甚至更优,这直接推动了Llama 4的开发进程。Meta为此组建了作战室,旨在解密DeepSeek如何降低运行和部署R1、V3等模型的成本。

目前Llama 4 Scout和Maverick已在Llama.com及Meta的合作伙伴平台(如AI开发平台Hugging Face)上公开提供,而Behemoth仍在紧张训练中。Meta还宣布,其跨WhatsApp、Messenger和Instagram等应用的AI助手Meta AI已更新,可在40个国家/地区使用Llama 4,但多模式功能目前仅限于美国英语版本。

Llama 4的许可证条款禁止在欧盟“注册”或“主要营业地点”为欧盟的用户和公司使用或分发这些模型,这可能是受该地区人工智能和数据隐私法规定的治理要求影响。此外,每月活跃用户超过7亿的公司必须向Meta申请特殊许可,且许可的授予或拒绝由Meta自行决定。

Meta在博文中表示:“这些Llama 4模型标志着Llama生态系统新时代的开始,而这仅仅是Llama 4系列的起点。”

Llama 4是Meta首批采用混合专家(MoE)架构的模型,该架构在训练和回答查询方面展现出更高的计算效率。MoE架构将数据处理任务分解为子任务,并委托给较小的、专门的“专家”模型。例如,Maverick拥有4000亿个参数,但在128位“专家”中仅有170亿个活跃参数。Scout则拥有170亿个活跃参数、16位专家和1090亿个总参数。

根据Meta的内部测试,Maverick在某些编码、推理、多语言、长上下文和图像基准上超越了OpenAI的GPT-4o和谷歌的Gemini 2.0等模型,最适合创意写作等“一般助理和聊天”用例。然而,Maverick在功能上仍不及谷歌的Gemini 2.5 Pro、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5等近期推出的更强大模型。

Scout则在文档摘要和大型代码库推理等任务上表现出色,拥有1000万个标记的上下文窗口,使其能够处理和处理非常长的文档。根据Meta的计算,Scout可在单个Nvidia H100 GPU上运行,而Maverick则需要Nvidia H100 DGX系统或同等系统。

尚未发布的Behemoth将需要更强大的硬件支持。据Meta称,Behemoth拥有2880亿个活跃参数、16位专家和近2万亿个总参数。在多项衡量STEM技能的评估中,Behemoth的表现优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro(但不及2.5 Pro)。Llama 4系列中并未包含像OpenAI的o1和o3-mini那样的真正的“推理”模型。推理模型会核实其答案,并且通常能更可靠地回答问题,但因此需要更长的时间来给出答案。

Meta对所有Llama 4型号进行了调整,使其不再频繁拒绝回答“有争议”的问题。据称,Llama 4会回应“有争议的”政治和社会话题,而之前的Llama型号则不会。Meta表示,Llama 4的“平衡性大大提高”,不会接受这些提示。