深度学习与专家经验结合,引领人工智能新风向
4月6日消息,Meta正式推出了全新Llama4系列的AI模型,包括Llama4Scout、Llama4Maverick以及Llama4Behemoth。Meta方面表示,这些模型均经过了“海量未标注的文本、图像和视频数据”的训练,从而拥有“全面的视觉理解能力”。
目前,Meta已经将其系列模型中的Scout和Maverick成功上架至HuggingFace平台,供用户访问和使用,而Behemoth模型目前仍处于训练阶段。Scout因其轻量级特性,能够在单一英伟达H100 GPU上流畅运行,展现了其高效能的优势。相比之下,Maverick对硬件要求更高,需要借助英伟达H100 DGX AI平台或类似高性能设备的支持才能充分发挥潜力。 从我的角度来看,这种分层化的部署策略体现了Meta在资源优化与技术应用上的平衡能力。Scout的上线为中小型开发者和研究者提供了便利,降低了进入门槛;而Maverick对高性能设备的需求,则表明它可能面向更复杂的应用场景,如大规模数据分析或专业领域的深度学习任务。这种差异化的产品定位不仅满足了不同用户群体的需求,也展示了Meta在人工智能领域持续探索和创新的决心。未来,随着Behemoth模型的发布,我们有理由期待Meta能够带来更多突破性的成果。
Meta宣布,Llama4系列模型是其首款应用混合专家(MoE)架构的产品,该架构在训练及回应用户查询时表现出更高的效率。“混合专家架构”大致上是将数据处理工作拆解为多个子任务,并将其分配给规模较小且更为专业的‘专家’模型来执行。
例如,Maverick拥有4000亿个参数,但其运行时仅128个“专家”模型会激活,且每个模型的活跃参数约为170亿个。相比之下,Scout虽然同样具备170亿个活跃参数,但它由16个“专家”模型组成,总参数量达到1090亿个。 从这些数据可以看出,尽管Maverick的整体参数规模远超Scout,但在实际应用中,它更多依赖于特定领域的“专家”模型来完成任务,这表明其设计更倾向于模块化和专业化。而Scout则通过较少的“专家”模型实现了更高的总参数量,这种架构可能使其在处理复杂任务时更具灵活性。两者各有千秋,Maverick的优势在于庞大的基础参数储备,而Scout则在精简与高效之间找到了平衡点。未来,这两种策略或许会被进一步融合,以实现更强大的人工智能系统。我的看法是,无论是Maverick还是Scout,它们都展示了AI技术在不同方向上的探索成果,这也提醒我们,未来的AI发展需要兼顾广度与深度,才能更好地服务于人类社会。
需要指出的是,Llama4系列中的所有模型都不是类似于OpenAI的o1和o3-mini那样的“推理模型”。相比之下,“推理模型”会对答案进行事实验证,通常能够更可靠地回答问题,但这也意味着它们相比普通的“非推理”模型需要更多时间来生成答案。
据Meta内部测试结果显示,Maverick模型在“通用AI助手和聊天”等应用场景中表现出色,其在创意写作、代码生成、翻译、推理、长文本上下文总结以及图像基准测试中的性能超越了OpenAI的GPT-4o和谷歌的Gemini2.0等模型。不过,与谷歌的Gemini2.5Pro、Anthropic的Claude3.7Sonnet以及OpenAI的GPT-4.5等更先进的模型相比,Maverick仍有提升的空间。
Scout 的核心优势在于其强大的文档总结能力和对庞大代码库的高效推理能力。这款模型能够处理高达1000万个词元,每个词元相当于文本中的一个片段,比如单词“fantastic”可以被分解为“fan”、“tas”和“tic”。这意味着它有能力一次性分析数百万字的文本内容。 我认为这种技术的进步对于现代信息处理领域来说是一个重要的里程碑。在当今海量信息的时代,如何快速有效地从庞杂的数据中提取有价值的信息变得尤为关键。Scout 的出现不仅提高了工作效率,还为开发者和研究人员提供了前所未有的便利。随着人工智能技术的不断发展,我们有理由相信未来会有更多类似的工具问世,帮助人类更好地应对信息爆炸带来的挑战。同时,我也期待看到这类技术能够在更广泛的场景下应用,比如教育、医疗等,为社会创造更大的价值。
注意到,Meta还预览了其Behemoth模型,据称该模型拥有2880亿个活动参数,并包含16个“专家”子模型,总参数量接近2万亿个。根据Meta的内部基准测试结果,在涉及解决数学问题等科学、技术、工程和数学(STEM)领域技能的一些评估中,Behemoth的表现超过了GPT-4.5、Claude3.7、Sonnet以及Gemini2.0Pro,但仍未达到Gemini2.5Pro的水平。