沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

英伟达RL新突破:Nemotron-N1系列模型,深度强化AI决策力

2025-05-14来源:ITBEAR编辑:瑞雪

近期,科技界传来一则新动态,英伟达携手宾夕法尼亚州立大学及华盛顿大学,共同推出了名为Nemotron-Research-Tool-N1系列的新模型。这一系列模型受到了DeepSeek-R1的启发,并采用了创新的强化学习(RL)范式,旨在增强模型的推理能力。

在大型语言模型(LLMs)领域,通过整合外部工具来提升性能已成为一种流行趋势。这些工具使得LLMs在搜索引擎、计算器、视觉处理及Python解释器等多个领域展现出了卓越的性能。然而,现有的研究方法大多依赖于合成数据集,难以捕捉到明确的推理步骤,导致模型往往只能模仿表面的模式,而无法真正理解背后的决策过程。

为了克服这一挑战,研究者们积极探索了多种策略来提升LLMs的工具使用能力。一方面,他们通过整理数据集和优化模型,创建了大规模的监督数据集,并运用了监督微调(SFT)和直接偏好优化(DPO)等强化学习技术,将LLMs与外部工具相结合,进一步扩展其功能。另一方面,研究者们也在不断改进推理过程,从传统的训练时扩展转向更为复杂的测试时策略。

尽管这些方法在一定程度上取得了成效,但它们仍然受限于合成数据的不足。通过现有的策略,LLMs虽然能够处理单轮或多轮的工具调用,但在自主推理的深度上仍显不足。为了突破这一局限,英伟达及其合作伙伴开发了Nemotron-Research-Tool-N1系列模型。

Nemotron-Research-Tool-N1系列模型并未依赖显式的推理轨迹标注,而是采用了一种二元奖励机制,鼓励模型自主发展推理策略。研究者们对xLAM和ToolACE等数据集(包含单轮和多轮工具调用轨迹)的子集进行了统一处理,并设计了一种轻量级的提示模板,以指导工具生成过程。这种模板通过使用特定的标签来明确指示中间推理步骤,并封装工具调用,从而避免了模型过度拟合特定的提示模式。

在模型的主干部分,研究者们选择了Qwen2.5-7B和14B,并测试了LLaMA系列的变体,以评估模型的泛化能力。在BFCL基准测试中,Nemotron-Research-Tool-N1-7B和14B模型展现出了卓越的性能,不仅超越了GPT-4o等封闭源模型,还优于xLAM-2-70B和ToolACE-8B等经过专用微调的模型。

与采用相同数据源的SFT基准相比,Nemotron-Research-Tool-N1系列模型展现出了显著的优势,这充分证明了强化学习方法的有效性。在API-Bank基准测试中,Tool-N1-7B和14B的准确率分别比GPT-4o高出了4.12%和5.03%。这些结果不仅验证了新方法的巨大潜力,还表明LLMs在自主生成推理策略方面取得了重要进展。这一突破标志着从传统的监督微调向强化学习范式的转变。

光联携手利元亨,共话新能源制造AI时代网络新路径与新机遇
聚焦企业在全球范围内的多分支互联与云IDC接入问题,方案基于光联自建全球光纤骨干网络及华为SD-WAN设备,支持MPLS、Internet与4G/5G等多种链路融合,并可弹性部署多种拓扑模型,实现总部、分支…

2025-11-15

TLKS-PMG-TP装置:全天候精准监测,守护输电线路“体温”安全
TLKS-PMG-TP输电线路线夹及导线温度在线监测装置应运而生,以其高精度测温与全时段监测能力,为输电线路装上了一双“精准温控眼”。 TLKS-PMG-TP装置不仅提供实时监测,更实现了输电线路运维的智能…

2025-11-15

Gartner发布2026十大技术趋势:AI主导变革,从“大而全”迈向“精而实”
近日,商业与技术洞察公司Gartner发布了2026年十大战略技术趋势:AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源,以及…

2025-11-14

广电卡适配指南:哪些手机能用?这些旗舰机型可能不兼容!
华为P50系列是个特例,即便是4G版,也能通过软件方案支持广电5G。中国广电表示,近六年主流手机型号均已升级适配广电网络,98%以上的新入网5G手机支持700MHz频段。 判断你的手机是否适配广电卡,不仅…

2025-11-13

Kernelcom“智能键盘”来袭:12.5英寸超宽屏,AMD/Intel双版本可选
快科技11月12日消息,近日一款名为Kernelcom的设备正在Kickstarter上众筹,虽然其本质上是一款功能完备的笔记本电脑,但制造商还是将其宣传为“智能键盘”。 这款设备最大的特点是其12.5英寸超…

2025-11-13

山海星耀攻克超低轨难题,以硬核技术逐梦空天新蓝海
天虎科技了解到,虽然当前市场上有一些针对超低轨的吸气式推进器,但从气体收集率、推进效率、测试工作环境等维度上,山海星耀的电推进器均具备一定优势。 蔡东升表示,目前该产品是商业航天公司首次实现了“高真空运行环…

2025-11-12

Viwoods发布AiPaper Reader电纸书:6.13英寸墨水屏搭载AI阅读互动功能
IT之家 11 月 11 日消息,据科技媒体 NoteBook Check 今天报道,Viwoods 现已推出 AiPaper Reader电纸书,运行 Android 16 操作系统,机身配备专用 AI …

2025-11-12

海外游语言障碍终结者:时空壶新T1离线翻译,精准适配复杂场景
时空壶新T1翻译机凭借端侧AI翻译技术与全面的离线功能配置,成为假期中解决无网沟通难题的关键设备,其技术设计精准匹配了海外旅行中的复杂网络环境。这种“离线核心+在线补充”的双模式设计,精准命中了国庆海外游中“…

2025-11-11

苹果换新机数据迁移难?5种实用方法,简单操作轻松搞定数据转移!
方法一、“快速开始”直接传输这是苹果官方自带的工具,专门针对新手机未激活时迁移旧机数据设计,能直接把旧 iPhone的几乎所有数据完整搬到新手机,包括照片、联系人、短信、视频、APP等,不用手动筛选,适合换…

2025-11-11

星闪E2.0亮相!华为FreeBuds Pro 5开启无线音频新篇,重塑TWS标准
于是,我们得到了星闪1.0,而在此基础上,华为今年又推出了星闪E2.0,将此前星闪1.0在音频传输上存在的一些问题彻底解决,并且做了全链路的升级。聊完星闪E2.0,接下来我们再聊聊FreeBuds Pro …

2025-11-11