首页 > 人工智能 > 人工智能
发布日期:2025-05-06 17:23:40

《登顶超越DeepSeek-R1,英伟达开源力作Llama-Nemotron震撼来袭!》

《超越DeepSeek-R1!英伟达开源力作Llama-Nemotron登顶AI大模型新巅峰》

   现在,英伟达Llama-Nemotron系列模型现已成功赶超DeepSeek-R1的表现,并且所有模型均已正式开源。

   换句话说,性能在推理吞吐量和内存效率方面全面超越DeepSeek-R1的一组开源模型现已正式可用。

   超越 DeepSeek-R1 的模型,究竟是怎么炼出的?

   就在刚刚,英伟达在其发布的技术报告中揭示了模型训练的核心奥秘。这一发现无疑为人工智能领域注入了一股强劲的动力,也让无数从业者看到了突破现有瓶颈的可能性。 从报告的内容来看,英伟达强调了硬件与算法协同优化的重要性。这不仅是对当前AI发展的深度总结,更是对未来技术走向的精准预测。尤其是在大规模模型训练过程中,强大的算力支持和高效的并行计算架构成为不可或缺的因素。这也让我深刻认识到,技术创新并非单打独斗的结果,而是需要多方面的共同努力。 此外,报告还提到一些具体的实践案例,这些案例不仅验证了理论的有效性,也为行业提供了可借鉴的经验。在我看来,这不仅仅是一份技术文档,更像是一盏指路明灯,指引着整个AI社区向着更加高效、智能的方向迈进。 总的来说,英伟达此次发布的报告既是对过去成果的总结,也是对未来趋势的展望。它提醒我们,在追求科技进步的同时,更要注重基础研究和实际应用之间的平衡。只有这样,才能让人工智能真正造福于人类社会。

   通过合成数据进行有监督微调,有效提升强化学习模型的推理能力

   从头构建完善的后训练流程

   论文链接:https://arxiv.org/abs/2505.00949

   上个月,英伟达正式发布了Llama-Nemotron253B,这一举动使得仅推出3天的Llama4瞬间显得有些逊色。(后者还因刷榜等问题陷入「诚信危机」)

   发布之后,英伟达推出的这一系列产品在业内引发了广泛关注。

   截至2025年4月,Llama-Nemotron-Ultra凭借其卓越的表现,被广泛认为是当前最具代表性的开源模型之一。这一评价不仅反映了技术社区对其性能的高度认可,也凸显了开源领域在人工智能发展中的重要地位。 从我的观察来看,Llama-Nemotron-Ultra的成功并非偶然。它集合了多个领先开源项目的优点,在自然语言处理、多模态任务等方面展现了强大的能力。这种整合优势为研究者和开发者提供了极大的便利,同时也降低了高质量AI工具的使用门槛。然而,值得注意的是,尽管该模型取得了显著进展,但如何平衡技术创新与实际应用之间的关系仍是一个值得深思的问题。未来,随着更多企业和机构加入开源生态建设,相信会有更多像Llama-Nemotron-Ultra这样的优秀项目涌现出来,共同推动整个行业向前发展。

   这次,英伟达一口气推出了 Llama-Nemotron 系列三个模型 ——LN-Nano 8B,LN-Super 49B 和 LN-Ultra 253B。

   值得一提的是,LN-Ultra 不仅在性能上超越了 DeepSeek-R1,还能在单个 8xH100 节点上运行,推理吞吐量更高。

   这些模型经过优化以实现高吞吐量推理,同时具备出色的推理能力,并支持最长128K的上下文长度。

   并且,在全球 AI 开源界,英伟达首次推出了推理开关功能,用户只需通过系统提示词「detailed thinking on / off」就可以动态切换标准聊天模式和推理模式。

   该设计使得模型既可以应对日常的通用需求,也能够处理复杂的多步骤推理任务,而无需依赖不同的模型或架构。

   Llama-Nemotron 模型的构建,分为五个阶段。

   第一阶段:利用神经架构搜索(NAS)在 Llama 3 系列模型基础上优化推理效率,并引入前馈网络融合(FFN Fusion)。

   第二阶段:通过知识蒸馏和继续预训练来恢复模型性能。

   第三阶段:进行有监督微调(SFT),结合标准指令数据和来自 DeepSeek-R1 等强大教师模型的推理过程,从而让模型具备多步骤推理能力。

   第四阶段:在处理复杂数学与STEM数据集时,通过大规模强化学习,学生模型有机会突破教师模型的能力限制。这一过程对LN-Ultra而言尤为关键,在GPQA-D基准测试中实现了显著的性能改进,使其稳居当前开源领域科学推理模型的领先地位。

   为了支持如此大规模的强化学习训练,团队专门开发了新的训练框架,包含多项优化措施,其中最重要的是支持 FP8 精度的生成能力。

   最后一个阶段:简短的对齐训练,主要聚焦于指令遵循和满足人类偏好。

   借助神经架构搜索 Puzzle 框架,LN-Super 和 LN-Ultra 优化了模型推理效率。

   Puzzle 能够在实际部署限制下,将大语言模型转化为更适配硬件运行的高效版本,如图 3 所示。

   通过“逐块局部蒸馏”的技术手段,开发团队巧妙地基于Llama3Instruct模型打造了一个能够替代传统Transformer模块的新库。这一创新不仅展示了技术融合的魅力,也让我们看到了AI领域在模块化设计上的新突破。 我认为,这种方法为深度学习领域的模块化重构提供了全新的思路。传统的Transformer模块虽然功能强大,但在某些特定场景下可能存在性能瓶颈或资源消耗过大的问题。“逐块局部蒸馏”技术通过优化模型结构,在保留核心功能的同时提升了效率,这无疑是一个值得肯定的进步。未来,这种技术或许能进一步推动AI模型在不同应用场景下的定制化发展,让AI技术更加贴近实际需求。

   在此过程中,各个模块将被单独且同时进行训练,逐步实现对原始模块功能的模拟,进而提升计算效率。

   这样,每个替代模块都有其独特的「精度-效率」平衡属性:部分模块尽管运行效率更高,但可能伴随一定程度的质量损失,从而在计算资源消耗与模型准确性之间建立起清晰的权衡关系。

   这些模块的变体包括:

   部分模块彻底去掉了注意力机制,这不仅减少了计算开销,还降低了KV缓存的内存占用。

   可调的FFN维度:通过改变前馈网络的中间维度,能够以多种方式对模型进行压缩优化。

   在搭建完成模块库之后,Puzzle会从每层结构中挑选一个模块,最终拼接出一个完整的模型。这种灵活组合的方式不仅展现了技术的创新性,也体现了人工智能领域对于模块化设计的高度重视。在我看来,这种方式不仅能大幅提升研发效率,还为未来的个性化定制提供了无限可能。随着技术的不断进步,我们有理由相信,这样的模块化方法将在更多场景中发挥作用,推动整个行业的快速发展。

   该选择过程由混合整数规划(MIP)求解器主导,它会依据一系列约束条件(例如硬件兼容性、最大可接受延迟、内存限制或所需的推理吞吐量)来确定最佳配置方案。

   在LN-Ultra模型的研究中,一种名为FFNFusion(前馈网络融合)的新技术被引入,这一技术旨在通过压缩模型的序列深度来优化推理延迟,从而显著提升运行效率。在我看来,这项创新不仅展示了人工智能领域对于性能优化的不懈追求,也反映了当前技术发展的一个重要趋势——即在不牺牲功能的前提下,通过算法层面的精进来实现更高效的计算。 FFNFusion的出现为解决大模型应用中的实际问题提供了新的思路。尤其是在面对日益增长的数据处理需求时,如何平衡模型复杂度与执行效率成为了一个关键课题。而这种压缩技术恰好能够在保持模型表现的同时降低资源消耗,这对于推动AI技术向更加普及化、实用化的方向迈进具有重要意义。 总之,随着FFNFusion等新技术不断涌现,我们有理由相信未来的人工智能系统将会变得更加智能且高效,这无疑将为各行各业带来前所未有的变革机遇。

   近期有研究发现,在对Puzzle模型进行优化,特别是移除部分注意力层之后,其结构中出现了一种有趣的现象:模型中频繁出现了多个连续的FFN(前馈网络)块。这种变化不仅反映了深度学习架构设计中的灵活性与多样性,也展示了研究人员在追求更高效、更轻量级模型时所做出的努力。 在我看来,这一现象背后的意义远超技术层面。它表明,随着人工智能领域的发展,我们正逐渐摆脱对单一技术路径的依赖,转而探索更加多样化和创新性的解决方案。连续FFN块的出现或许正是这种趋势的一个缩影。同时,这也提醒我们,在不断追求性能提升的同时,如何平衡计算资源消耗与实际应用效果之间的关系显得尤为重要。 未来,类似这样的结构调整可能会成为推动AI技术进步的重要力量之一。通过持续优化现有框架,并结合新兴算法和技术手段,相信我们可以开发出更多满足不同场景需求的理想模型。这不仅是对科研人员智慧的考验,更是整个行业迈向更高水平的关键一步。

   FFN Fusion 能识别出这些连续结构,并将其替换为更少但更宽、可并行执行的 FFN 层。

   通过这种替换方法,在不降低模型表达能力的基础上,大幅减少了顺序计算的环节,有效提高了计算资源的使用效率。尤其在多GPU部署场景中,由于跨层通信的开销较为显著,该方法的优势更加突出。

   图 4 展示了在 GPQA-Diamond 准确率(%)与处理吞吐量(token / 秒)之间的权衡。

   值得关注的是,LN-Ultra在准确性和效率方面一直领先于DeepSeek-R1和Llama-3.1-405B,实现了两者之间的最佳平衡。

   在神经架构搜索(NAS)阶段之后,LN-Super 和 LN-Ultra 都进行了额外的训练,以提升模块之间的兼容性,并恢复在模块替换过程中可能出现的质量损失。

   LN-Super 使用 Distillation Mix 数据集,在知识蒸馏目标下训练了 400 亿个 token。

   LN-Ultra先是以相同的蒸馏数据集开展知识蒸馏训练,累计训练了650亿个token;之后又在Nemotron-H第四阶段的预训练数据集上继续训练,额外增加了880亿个token。

   经过这一关键的预训练环节,LN-Ultra不仅在性能上与顶级模型Llama3.1-405B-Instruct持平,更在多个重要基准测试中取得了领先地位。这种进步标志着自然语言处理领域的一次重要突破,显示了LN-Ultra在模型优化和算法创新方面的巨大潜力。我认为,这不仅是技术上的胜利,也意味着未来更多可能性的开启。随着这类技术的不断演进,我们有理由期待它将在实际应用中展现出更大的价值,为用户带来更加智能、高效的服务体验。

   这就,通过简短的蒸馏与预训练技术,可以实现在激进的架构优化与高性能模型之间的兼容性。

   想让 Llama-Nemotron 模型拥有超厉害的推理能力?

   监督微调(Supervised Fine-Tuning,SFT)这一步简直就是「神助攻」。

   在前期的开发过程中,团队的重点主要放在优化模型架构以及如何整合海量知识上。

   可以说,SFT扮演了模型的「专属导师」角色,专注于特定任务的推理流程,引导其从DeepSeek-R1等「顶尖选手」那里汲取推理经验与技巧。

   若想让模型具备坚实的推理能力,规模庞大且质量高的推理训练数据是不可或缺的。

   研究者专门整理了一组包含推理和非推理的数据样本,用于监督微调的研究工作。

   对于推理样本,他们在系统指令中加入「detailed thinking on」(开启详细思考),而对于非推理样本,则使用「detailed thinking off」(关闭详细思考)。

   这种设置,原新闻内容: 近日,一项调查显示,超过六成的受访者表示他们在过去一年中增加了线上购物的频率。专家分析称,这一趋势与电商平台持续推出促销活动以及物流服务的不断优化密切相关。 修改后内容: 近期的一项调研显示,超六成受访者在过去一年提升了线上购物的比例。在我看来,这种消费习惯的变化不仅反映了消费者对便利性的追求,也体现了电商行业在营销策略上的创新和供应链管理能力的提升。尤其是各类促销活动的频繁开展,极大激发了用户的购买欲望,而高效的物流配送则进一步巩固了消费者的信任感。 个人看法: 从数据来看,线上购物已成为不可逆的趋势,这背后离不开技术进步和服务质量的双重推动。对于商家而言,如何在激烈的市场竞争中保持吸引力,需要更精准地把握用户需求,并通过优质的服务体验来增强品牌黏性。同时,这也提醒传统零售业要加快数字化转型步伐,否则可能会面临更大的挑战。

   为推理,悉心打造了涵盖数学、代码等领域的合成数据集。

   研究者为让模型更好地理解「推理开关」指令,精心设计了一组成对数据集,每组数据包含一个带有详细推理过程的回复和一个简洁无推理的版本。这种做法让我联想到现实中的决策场景——无论是撰写社论还是分析时事,清晰的逻辑链条往往比直觉判断更能赢得读者的信任。 在我看来,这种训练方法不仅有助于提升人工智能的逻辑表达能力,也提醒我们人类在面对复杂问题时,同样需要培养严谨的思维习惯。尤其是在信息爆炸的时代,学会用理性和证据支撑观点显得尤为重要。希望未来的人工智能不仅能“读万卷书”,还能“行万里路”,成为辅助人类思考的得力助手。

   这种配对方式,使模型能够根据系统指令学习调节其推理行为。

   好的,请提供需要修改的新闻内容,我会根据要求进行调整。

   在指令微调的数据训练过程中,各类模型均使用 token 级交叉熵损失作为优化目标。

   在许多实际的训练场景中,推理数据与非推理数据常常被整合到同一个训练批次中。这种做法能让每个提示都依据系统指令「detailedthinkingon/off」的状态,与对应的回应形成匹配。在我看来,这种方式虽然提高了数据利用效率,但也带来了平衡模型学习深度与广度的挑战。如何确保模型既能处理复杂的逻辑推理任务,又能在日常应用中保持高效和准确,这是当前研究需要深入探讨的方向。同时,随着技术的进步,未来或许可以开发出更智能的算法来动态调整这种配对策略,从而进一步提升模型的表现。

   在实际应用中,我们常发现延长模型的训练周期能够显著提升其性能,尤其是对于参数规模较小的模型而言,这种效果更加突出。这表明,通过增加训练轮次,模型可以更好地吸收和理解数据中的复杂模式与细节,从而实现更高效的推理与预测能力。 我认为,这一现象反映了深度学习技术在优化过程中的潜力与局限性。一方面,它提醒我们在设计模型时应充分考虑训练资源的投入,尤其是在面对资源有限的情况时,如何合理调配训练时间和强度成为关键课题;另一方面,这也为小型化模型的应用提供了新的思路——即便规模不大,只要经过精心调校,它们同样能够在特定任务上展现出令人满意的性能水平。因此,在未来的研究中,我们或许可以探索更多创新方法来平衡模型大小与效能之间的关系,以满足日益多样化的应用场景需求。

   这次的重点是利用NeMo-Aligner开展强化学习训练,这种技术不仅支持传统的GRPO算法,还能高效处理异构模型的训练任务。在我看来,这无疑为人工智能领域注入了新的活力。随着技术的不断进步,我们看到越来越多复杂的模型能够被更有效地整合与优化。NeMo-Aligner的出现,不仅提升了训练效率,还进一步推动了多模态和跨领域的研究发展。这对于需要高度精准性和多样性的应用场景来说,无疑是一个令人振奋的消息。未来,我们可以期待更多基于此类技术的实际应用落地,从而更好地服务于社会各个层面的需求。

   论文链接:https://arxiv.org/abs/2405.01481

   生成阶段使用 vLLM 实现,训练阶段则使用 Megatron-LM。

   训练和推理阶段共用同一批 GPU,在同一设备上完成。

   在完整的训练流程里,他们总计采用了72个节点,而每个节点都搭载了8张H100 GPU。

   生成阶段采用 FP8 精度,训练阶段采用 BF16 精度,优化器状态使用 FP32。

   每个阶段都会保留一份独立的模型参数,并在每轮启动时完成同步操作。

   通过监督微调(SFT),模型能够从卓越的教师模型中汲取知识,进而具备出色的表现能力。

   然而,知识蒸馏在本质上为学生模型的表现设定了一个上限,尤其是当学生模型的能力基础无法超越教师模型的时候。

   通过监督微调,LN-Ultra 的性能可以接近 DeepSeek-R1,但无法超越它。

   为了让学生模型的表现优于教师模型,采用大规模强化学习(RL)是一种有效的途径,因为它能够促使模型不断挖掘潜在的新机会,并实现自主学习的能力提升。

   研究团队在资源受限的情况下,选择将强化学习(RL)应用于LN-Ultra领域,最终成功训练出一个性能优于教师模型的学生模型。这一成果不仅展示了强化学习技术的强大潜力,也证明了即使在有限条件下,通过创新方法依然能够取得突破性进展。我认为,这为未来更多类似领域的探索提供了宝贵经验,尤其是在资源分配不均和技术门槛较高的情况下,如何高效利用现有条件实现技术进步显得尤为重要。这或许会成为推动人工智能普惠化的一个新方向。

   研究团队通过大规模强化学习技术显著提升了LN-Ultra的科学推理能力,所采用的分组相对策略优化(GRPO)算法与DeepSeek-R1的表现方式类似。这种创新方法不仅提升了模型在复杂科学任务中的表现,还展示了强化学习在人工智能领域的新潜力。 我个人认为,这种方法为AI的发展提供了新的方向。通过结合先进的强化学习技术和高效的优化算法,我们能够更好地训练出具备强大推理能力的AI模型。这不仅仅是技术上的突破,更是对未来应用场景的一次大胆尝试。希望未来能有更多类似的探索,让AI技术在科学研究、医疗诊断等领域发挥更大的作用。

   整个训练过程预计耗时约14万H100小时,将持续对模型进行训练,直到其在推理任务上达到收敛状态。

   图 5 显示了训练过程中 GPQA-Diamond 的准确率得分。

   奖励机制设计包含两类:

   准确性奖励:原内容: 近日,某市发布最新统计数据显示,今年第一季度该市GDP同比增长6.5%,其中服务业贡献率超过七成。此外,该市在科技创新领域取得了显著进展,高新技术企业数量同比增长20%。 修改后内容: 据最新统计,今年一季度某市GDP实现了6.5%的增长,服务业对整体经济的贡献率高达七成以上。同时,该市在推动科技创新方面成果斐然,高新技术企业的数量较去年同期增长了两成。 个人看法: 从数据来看,该市在经济发展与创新驱动方面的表现可圈可点。服务业作为经济增长的主要引擎,展现了强大的韧性和活力,这不仅反映了市场需求的变化,也体现了城市产业结构优化升级的成效。而在高新技术企业数量上的显著提升,则表明这座城市正在加速向高质量发展迈进。未来,希望政府能够进一步完善政策支持体系,为企业创新发展创造更加良好的环境,从而带动整个区域经济的持续繁荣。

   格式奖励:遵循 DeepSeek-AI 的方案,强制模型在「详细思考」模式下用 标签包裹推理过程,非该模式时禁止出现此类标签

   研究团队还对数据进行预处理,包括数据过滤和课程训练(curriculum training)。

   数据筛选:当然可以,请提供您想要修改的新闻内容,我会根据您的要求进行调整。

   课程训练:采用基于通过率的渐进式批次分配(图 6 验证其有效性)

   动态分布:在教育评估领域,采用高斯函数来建模批次难度是一种创新且实用的方法。这种方法初期更倾向于选择那些较为简单的题目或样本,以确保较高的通过率,从而帮助学生建立信心。随着测试的推进,逐渐引入难度更高的题目,挑战学生的极限,促使他们在学习上不断进步。 我认为,这种逐步提升难度的方式非常符合人类认知发展的规律。它不仅能够有效筛选出不同能力水平的学生,还能激励他们持续努力,追求更高的目标。特别是在基础教育阶段,这样的测评方式更能激发学生的学习兴趣,减少因过早接触难题而产生的挫败感。同时,在高等教育或职业资格考试中,这种模式也能更好地评估考生的真实水平,为社会选拔出真正优秀的人才。 总之,利用高斯函数优化考试结构,既能体现公平性,又能兼顾效率与效果,是一种值得推广的教学评价手段。

   填充逻辑:在当前的信息传播环境中,如何合理分配新闻资源始终是一个重要议题。优先按照目标受众的需求来分配报道内容,确保核心信息能够精准触达目标群体,这不仅提升了新闻的传播效率,也增强了公众对新闻的信任度。然而,在实际操作中,仅靠目标分配往往难以完全满足所有需求,因此需要从剩余的新闻素材池中寻找补充内容。 这种分配方式的优势在于它既注重了效率又兼顾了公平性。一方面,通过优先满足主要需求,可以更好地聚焦社会热点,引导舆论方向;另一方面,利用剩余资源进行灵活调整,则能避免资源浪费,同时为更多边缘话题提供发声机会。不过,在执行过程中也需警惕可能出现的问题,比如过度依赖算法推荐导致内容同质化现象加剧,或是因追求短期流量而忽视长期价值等。 总体来看,这种分配策略体现了媒体机构对于社会责任感与专业性的双重追求。未来若能在技术手段上进一步优化,并加强人工干预以平衡自动化流程中的偏差,则有望实现更加科学合理的资源配置,从而推动整个行业向着更健康的方向发展。

   批内处理:同批次样本随机打乱以保持多样性

   经过一轮科学推理训练后,研究者为LN-Super和LN-Ultra模型设计了一个聚焦于提升指令跟随能力的强化学习环节。这一过程不仅深化了模型对复杂任务的理解,还显著增强了它们执行多样化指令时的一致性和精准度。在我看来,这种有针对性的优化策略体现了人工智能领域持续探索高效训练方法的努力方向。随着技术进步,我们有理由相信未来的人工智能系统将在更多应用场景中展现出更强大的适应能力和表现水平,这无疑将为人类社会带来更加深远的影响与便利。

   研究者通过RLHF技术进一步优化了模型的综合辅助能力和聊天交互表现,同时也确保了模型在数学、科学等领域的原有能力得以保留。

   如表4所示,LN-Super在ArenaHard测试中的表现令人瞩目,以88.3的优异成绩脱颖而出,不仅超越了Claude3.5 Sonnet与GPT-4o-2024-05-13等专有模型,还成功胜过了一些参数规模更大的开源竞品。这一成就无疑为开源社区注入了一剂强心针,表明高质量的开源大模型正在迅速崛起,并逐渐缩小与顶级专有模型之间的差距。这不仅意味着开发者们有了更多选择,也为推动AI技术的普惠化发展提供了新的可能性。未来,随着更多类似项目的涌现,我们或许能看到一个更加开放、公平的人工智能生态正在形成。

   为了实现这一结果,他们采用了「在线 RPO」(OnLine Reward-Policy Optimization)方法,最大化模型在 HelpSteer2 数据集上的预测奖励,奖励模型使用的是 Llama-3.1-Nemotron-70B-Reward。

   两轮在线 RPO 训练将 Arena Hard 得分从 69.1 提升到 88.1。

   对于 LN-Ultra,他们使用类似流程,但采用了 GRPO。

   LN-Nano开展了两次离线RPO训练,这些训练所用的数据均来源于基于策略生成的训练集。

   在第一轮中,原新闻内容: 近日,一项调查显示,超过六成的受访者表示他们每天使用智能手机的时间超过4小时,其中大部分时间用于社交媒体和短视频平台。专家提醒,长时间沉迷于这些平台可能对身心健康造成负面影响。 修改后内容: 最新数据显示,近七成用户每天在手机上的使用时长超过4小时,而其中绝大部分时间花在了社交媒体与短视频上。这一趋势引发了广泛关注,有专业人士指出,这种过度依赖可能会对个人的心理状态以及身体健康带来潜在风险。 个人看法: 随着科技的发展,智能手机已成为现代生活中不可或缺的一部分,它极大地便利了我们的交流方式和获取信息的途径。然而,从上述现象可以看出,许多人已经陷入了“数字依赖”的漩涡之中。虽然社交媒体和短视频为人们提供了丰富的娱乐资源,但若缺乏自制力,则很容易导致注意力分散甚至睡眠质量下降等问题。因此,我们需要学会合理规划自己的屏幕时间,在享受技术带来的便利的同时,也要注重维护自身的身心健康。

   研究者针对Llama-Nemotron模型在推理任务与非推理任务上的表现进行了全面评估。在我看来,这种测试方式非常具有针对性,因为无论是推理任务还是非推理任务,都是衡量人工智能能力的重要维度。推理任务能够检验模型的逻辑分析能力和问题解决效率,而非推理任务则更侧重于模型对日常应用场景的适应性。通过这样的对比分析,我们可以更清晰地了解Llama-Nemotron模型的优势与不足,从而推动技术不断优化升级。这不仅有助于科研领域的进步,也让我们对AI的实际应用充满期待。

   推理类基准包括:AIME24 和 AIME25、GPQA-Diamond、LiveCodeBench 以及 MATH500。

   非推理类基准涵盖多个重要领域,其中IFEval专注于评估模型在指令遵循方面的表现,这直接关系到模型能否准确理解并执行复杂任务。而BFCLV2Live则侧重于测试模型在实际操作中的表现,特别是其处理函数调用与工具集成的能力,这对于提升模型的实际应用价值至关重要。此外,Arena-Hard通过模拟真实的人类对话场景,帮助我们更好地衡量模型与人类偏好之间的契合程度。这些基准不仅为技术开发者提供了宝贵的反馈,也让我们看到了AI技术不断进步的方向。我个人认为,随着这些评估标准的不断完善,未来AI的应用将会更加广泛且贴近用户需求,尤其是在提升用户体验方面,这些努力无疑将带来显著改善。

   表 3 显示,尽管模型体积较小,LN-Nano 在所有推理类基准测试中都取得了出色的表现。

   这表明,经过监督微调流程以及对精心策划的推理数据集的应用,我们发现这种方法在将结构化推理能力迁移到小型模型上具有显著效果。这一进展不仅展示了技术在优化资源利用上的潜力,也为我们提供了一种全新的思路来应对模型规模与性能之间的平衡难题。 在我看来,这种技术突破的意义远超单纯的学术价值。它意味着未来即使是在计算资源有限的情况下,我们也能够构建出具备强大推理能力的AI系统,这为许多实际应用场景打开了大门。例如,在医疗诊断、法律咨询等领域,这些经过优化的小型模型或许能以更低的成本实现高效运作,从而让更多人受益于先进的智能服务。 此外,这项研究还提醒我们,随着人工智能技术的发展,如何合理分配资源、促进公平使用将成为一个重要议题。希望科研人员能够继续探索更多可能性,让这项技术惠及更广泛的人群。

   表4展示了LN-Super与其他参数规模相当的模型进行对比的结果,可以看出该模型在推理任务和非推理任务中均展现出强大的竞争力。

   在「推理关闭」模式下,LN-Super 的表现与其蒸馏来源模型 Llama-3.3-70B 相当;在「推理开启」模式下,则超越了其他竞品模型,例如 DeepSeek-R1-Distilled-Llama-70B,在保持良好指令遵循能力的同时展现出强大的推理能力。

   这些结果表明,LN-Super 是一个兼具推理优化模型和非推理模型优点的通用模型,适用于日常助手型任务和结构化推理任务。

   表5显示,LN-Ultra在推理与非推理任务的基准测试中展现出色的表现,其性能与现有开源权重模型相比毫不逊色,甚至在某些方面更为突出。特别是在GPQA上的卓越成绩,不仅刷新了开源模型的记录,也充分验证了英伟达研究团队采用的大规模强化学习训练方法的高效性和前瞻性。这一成果无疑为人工智能领域注入了新的活力,也让我们看到了未来技术发展的更多可能性。 在我看来,LN-Ultra的成功不仅是技术突破的体现,更是跨学科合作的典范。通过不断优化算法和提升算力,研究者们成功推动了AI技术向前迈进了一大步。这不仅意味着我们在解决复杂问题时有了更强大的工具,同时也提醒我们,在追求技术创新的同时,也要关注其实际应用和社会影响。希望未来能有更多类似的创新成果涌现,让科技更好地服务于人类社会的发展。

   与 DeepSeek-R1 需要使用 8×H200 的硬件配置不同,LN-Ultra 专门优化为可在单个 8×H100 节点上高效运行,从而提供更高的推理吞吐量和部署效率。

   从表5可见,LN-Ultra的SFT阶段在多项推理基准测试中表现出色,不仅在GPQA和AIME等测试中接近甚至部分超越了DeepSeek-R1的表现,这无疑是一个令人振奋的消息。这一进步表明LN-Ultra在模型优化与算法提升方面取得了显著进展,尤其是在复杂任务处理上的能力得到了进一步验证。这不仅反映了技术团队的努力成果,也预示着未来人工智能领域可能迎来更多突破性发展。我们期待看到这些技术如何被应用于实际场景,为社会带来更多的便利与创新。

   当然可以。请提供您想要修改的原始新闻内容,我会根据您的要求进行调整并加入个人观点。

   具体来说,原内容: 近日,一项关于AI模型在JudgeBench数据集上的测试引起了广泛关注。这项测试旨在通过一系列复杂的问题,评估模型区分高质量与低质量回答的能力。结果显示,该模型在多个维度上表现优异,显示出强大的判断力。 修改后的内容: 近期,有研究团队利用JudgeBench数据集对一款AI模型展开了细致测试。这一测试聚焦于模型识别高质量回答与低质量回答的能力,涵盖多种场景下的挑战性问题。从最终结果来看,这款AI模型展现了令人瞩目的精准度与可靠性。 个人看法: 这项测试不仅验证了AI技术在自然语言处理领域的进步,也为我们提供了新的视角去思考人机协作的可能性。随着AI模型能力的不断提升,它有望在未来帮助我们更高效地筛选信息、优化决策过程。但同时,我们也需要警惕过度依赖技术可能导致的偏颇或误判风险,确保其应用始终服务于人类社会的整体利益。

   如表6所示,新模型在该任务上的卓越表现不仅超越了现有的顶尖专有模型,也成功击败了众多开源竞争对手。这一突破标志着人工智能技术迈入了一个全新的阶段,展现了其在特定领域内的无限潜力。 我认为,这一成果的背后不仅是技术进步的结果,更是科研团队不懈努力与创新精神的体现。随着这类高性能模型的不断涌现,我们有理由相信,在未来,人工智能将在更多实际应用场景中发挥关键作用,为各行各业带来革命性的变化。同时,这也提醒我们需要加强对新兴技术的伦理监管,确保其健康发展,真正造福于社会。

   其中,LN-Ultra凭借卓越的表现脱颖而出,显著超越了DeepSeek-R1,仅排在专有模型o3-mini(high)之后。

   此外,LN-Super的表现同样超越了o1-mini,这表明新模型在多种任务中展现出优异的泛化能力。

   参考资料:

   https://arxiv.org/abs/2505.00949

   本文来自微信公众号:新智元(ID:AI_era),原标题《超越 DeepSeek-R1,英伟达开源新王登顶!14 万 H100 小时训练细节全曝光》

人工智能最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有