Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率
科技
科技 > 人工智能 > 正文
站内

Meta发布Llama 4系列AI模型,引入“混合专家架构”提升效率

IT之家 4月6日消息,Meta现已发布旗下最新Llama 4系列AI模型,包含Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth,Meta透露相应模型都经过了“大量未标注的文本、图像和视频数据”的训练,以使它们具备“广泛的视觉理解能力”。

目前,Meta已将系列模型中的Scout和Maverick上架到Hugging Face(点此访问),而 Behemoth 模型则还在训练中。其中Scout可以在单个英伟达H100 GPU上运行,而 Maverick 则需要英伟达H100 DGX AI平台或“同等性能的设备”。

Meta表示,Llama 4系列模型是该公司旗下首批采用混合专家(MoE)架构的模型,这种架构在训练和回答用户查询时的效率更高,所谓“混合专家架构”基本上是将数据处理任务分解为子任务,然后将它们委派给更小的、专门的“专家”模型。

例如,Maverick总共有4000亿个参数,但在128个“专家”模型中只有170亿个活跃参数(参数数量大致与模型的问题解决能力相对应)。Scout有170亿个活跃参数、16个“专家”模型以及总计1090亿个参数。

不过值得注意的是,Llama 4系列中没有一个模型是像OpenAI的o1和o3-mini那样真正意义上的“推理模型”。作为比较,“推理模型”会对其答案进行事实核查,并且通常能更可靠地回答问题,但因此也比传统的“非推理”模型花费更长的时间来给出答案。

Meta内部测试显示,Maverick模型最适合用于“通用AI助手和聊天”等应用场景,该模型在创意写作、代码生成、翻译、推理、长文本上下文总结和图像基准测试中表现超过了OpenAI的GPT-4o和谷歌的Gemini 2.0等模型。然而Maverick与谷歌的Gemini 2.5 Pro、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5等功能更强大的最新模型相比仍有一定进步空间。

而Scout的优势则是总结文档、基于大型代码库进行推理。该模型支持1000万个词元(“词元”代表原始文本的片段,例如单词“fantastic”可拆分为“fan”、“tas”和“tic”),因此一次可以处理“多达数百万字的文本”。

IT之家注意到,Meta还进一步预告了其Behemoth模型,据该公司称,Behemoth有 2880 亿个活跃参数、16个“专家”模型,总参数数量接近2万亿个。Meta的内部基准测试显示,在一些衡量解决数学问题等科学、技术、工程和数学(STEM)技能的评估中,Behemoth 的表现优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro,但不如Gemini 2.5 Pro。

[责任编辑:彭坤苹 PT135]

推荐0

为您推荐

算法反馈
已显示全部内容

凤凰网科技官方微信

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载