热点资讯

新智元报道

编辑：KingHZ

【新智元导读】基于Qwen2.5架构，采用DeepSeek-R1-0528生成数据，英伟达推出的OpenReasoning-Nemotron模型，以超强推理能力突破数学、科学、代码任务，在多个基准测试中创下新纪录！数学上，更是超越了o3!

开源模型王座再次易主？

昨天，英伟达开源了OpenReasoning-Nemotron：

在多个基准测试中，同规模模型无敌，取得了SOTA得分
专为数学、科学、代码定制
提供四种参数规模：1.5B、7B、14B和32B，可在本地100%运行。

不过，这些模型还是「国产血统」：

架构基于Qwen2.5 ，SFT训练使用的是DeepSeek-R1-0528生成的数据。

OpenReasoning-Nemotron是目前最强的蒸馏的推理模型。

以后，推理模型也有了强基线模型。

一张图总结要点：

数学基准，超越o3

这次在参数高达671B的满血DeepSeek-R1-0528蒸馏，在5M的数学、代码和科学推理轨迹上训练。

这次的模型不仅仅进行token预测，还实现了真正的推理能力。

核心贡献者、英伟达研究科学家Igor Gitman介绍了这次的亮点。

与之前OpenMath/Code/Science发布时的提示集相同，这次只是更新了用于生成答案的R1模型，但改进幅度巨大！

而作为「教师」模型，新的R1模型表现出色！

而且这次没有进行任何在线强化学习，只进行了有监督微调（SFT）。

未来应该可以通过进一步优化这些模型或使用更少的 token 获得相似性能。

这些模型支持「重型」推理模式，可以「结合多个智能体的工作」。

为此，他们这次使用了。

使用GenSelect@64，在多个数学基准测试中超越了OpenAI o3（高算力版）。

还有另一个令人惊讶的结果：这些模型只是针对数学问题训练了GenSelect算法，但它竟然也泛化到了代码任务上！

32B模型的LCB得分从70.2（pass@1）提升到75.3（GenSelect@16）。

需要注意的是，这里没有使用强化学习（RL），但仍然观察到从数学到代码的强大泛化能力！

意外的现象

首先澄清一点，这是一次「研究性质」模型发布，主要目标是验证生成的新数据的价值，并探索仅通过监督微调（SFT）能将性能推到何种程度。

这次仅针对数学、代码和科学推理任务训练了模型，没有进行指令微调或强化学习人类反馈（RLHF）。

虽然这些模型在解决推理任务时表现优异，但未经进一步训练，它们可能无法胜任多轮对话或作为通用助手。

在一系列具有挑战性的推理基准测试中，模型表现出色。

7B、14B和32B模型在各自规模类别下的创下了多项最先进纪录。

现在，在开发这些模型时,还发现了两点有趣的事情。

（1）参数规模影响巨大。

1.5B模型，实际上并没有特别出色。例如，OpenMath-Nemotron-1.5B（我们之前的数学模型发布）在 AIME25 上得分为 49.5，而这个新模型得分为 45.6。

但是，7B（或更大的模型）进步就非常显著。OpenMath-7B 模型的得分为 61.2，而 OpenReasoning-7B 的得分则达到了 78.2！

因此，1.5B 模型的表现稍微下滑了，但 7B 模型在使用相同数据进行训练后提高了近 20%。

研究人员猜测可能是因为在处理较长上下文生成时，1.5B模型可能不太一致。

之前的数据集仅包含16K输出token，但这次扩展到了32K，而1.5B模型无法保持推理的一致性。

（2）模型学会了两种不同的行为。

在之前的 OpenMath 发布中，英伟达研究团队也使用了TIR数据来帮助模型学习使用Python。

由于没有时间用新的R1重新生成这些数据，他们决定将一些旧的 TIR 数据混入当前的训练集中，看看会发生什么。

他们原本期望：在训练过程中，模型仍然能够学习如何使用 Python，同时保留来自新 CoT 样本的更好推理。

然而，事实并非如此——如果你使用TIR模式来评估OpenReasoning模型，你会发现它们与OpenMath模型基本相同，这比带有CoT的新模型要差得多。

从某种角度来看，模型学会了两种不同的行为：一种是使用工具，但推理较差；另一种是不使用工具，但推理很强，两者之间没有有效的过渡。非常有趣的是，是否可以通过在TIR模式下应用在线强化学习（RL）来解决这个问题？

本地笔记可跑

如果笔记本电脑上运行，详细信息如下：

模型链接：https://huggingface.co/nvidia/OpenReasoning-Nemotron-32B

体验链接：https://huggingface.co/spaces/Tonic/Nvidia-OpenReasoning

可以使用LM Studio免费运行它们：

下载适用于macOS、Windows或Linux的LM Studio
在搜索标签页，输入「openreasoning」
安装你想要的版本

如果使用ARM处理器，建议使用Bartowski的7B版本。

只要骁龙 X Elite + 32GB RAM，就可以加载量化后的14B模型，并在CPU上运行。

参考资料：

https://x.com/NVIDIAAIDev/status/1946281437935567011

https://huggingface.co/blog/nvidia/openreasoning-nemotron

https://x.com/josephpollack/status/1946486918696313257

https://x.com/igtmn/status/1946585046552658358

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

特朗普威胁＂...

德军上格陵兰...

2-4遭海牛...

一句话点评理...

美以联合袭击...

撕裂之城！利...

＂砸记者摄像机＂被列为刑事案件记者衣服眼镜也被搞坏

林子祥和学生结婚，78岁开演唱会，依然一票难求

人身险预定利率将迎调降　机构预计或将下降50个基点

印度迎来最重要的一位客人

德约直落三盘轻取开门红，缔造两大纪录，其中一纪录让人瞠目咋舌

沙利文猛批特朗普：中国受欢迎程度已超美国

世体：西里亚拒绝与丰特联合竞选巴萨主席，他给自己留好后路

革命剧看八一厂就对了，陈龙饰周恩来，张一山演林彪，将上线央视

＂地产大佬＂被拘留！

连续2天逆跌，票房会破3.5亿！陈思诚还追不上，国产片靠姜文救场

初夏穿衣千万别发愁，看看这些日常穿搭，减龄舒适又显身材

急流勇退？赵丽颖一年多没进组，被传复婚带娃，38岁给自己放长假

美媒：特朗普和普京召开联合记者会打破了一个惯例

迈阿密决赛对手主帅：梅西是GOAT但我们也不差，苏牙过不了任何人

余承东40分钟央视专访：“遥遥领先”讲得非常少，谈鸿蒙生死线，回应套壳质疑

美学者：若送人上月球输给中国美国就太尴尬了

斯卡洛尼：如果处理得更好比赛早结束了；我想尝试532阵型

量产版明年上市 AUDI E SUV概念车亮相

九三“大阅兵”重磅来袭，新一代武器装备“引爆”A股军工板块

周末重大利好！阿里巴巴给国产算力空中加油，三星、SK海力士被美国撤销豁免

戛纳电影节｜钟楚曦、刘晓庆太美了，东方美又一次惊艳世界

湖记：我很难信湖人会冒险引进塞布尔/罗威约基奇字母哥我选前者

比亚迪王朝秦宋元夏 4 大 IP 车型将开启 OTA 升级

凭借500亿一夜飞升，她红的好突然