关闭广告

研究人员提出OThink-R1,让大模型自行决定是否需要深度思考

DeepTech深科技2025-09-02 00:00:0217人阅读

近日,浙江大学硕士生张盛佳和所在团队发现:深度推理模型的部分推理过程是不必要的。一方面,目前的深度推理模型在面对一些例如“1+1=?”的简单问题时,也需要大费周章地进行深度思考。而人类在面对诸如此类的简单问题时,往往能够凭直觉给出答案;另一方面,在一些简单任务上(例如,常识问答和小学生数学题),即使不具有深度推理能力的大模型也能取得较好的效果。本次研究基于所观察到的现象提出了一种解决方案,使得深度推理大模型在解决问题时,能够自行决定是否进行深度思考,有利于计算资源更加合理的分配,提升大模型的推理效率。


图 | 张盛佳(来源:张盛佳)

据介绍,受限于数据与算力的规模,预训练以 Transformer 为基础架构的大模型所带来的收益正在不断式微。那么,该如何进一步提升大模型的能力?近来,以 DeepSeek-R1、OpenAI o1 为代表的深度推理大模型突破了预训练 Scaling Law 的限制,通过增加测试时计算资源的投入,在多种复杂任务上取得了优异的效果。与非深度推理大模型相比,深度推理大模型通过模仿人类进行深度思考,能够更加准确地理解用户的需求,更加深入地分析用户提出的问题。

然而,目前的深度推理大模型面临严重的冗余思考问题:即使面对例如“1+1=?”这样的简单问题,深度推理大模型也需要进行长时间的思考,造成了计算资源的浪费。

实际上,人类的思考模式可以分为“根据直觉得出答案”的快思考和“进行深入分析得出答案”的慢思考。在面临一些简单的问题时,人类往往能够通过直觉直接给出答案。


图 | OThink-R1 主体框架(来源:张盛佳)

受到人类思考模式的启发,该团队提出了这样一个问题:如何赋予深度推理大模型自动切换快慢思考的能力,自行决定是否需要进行深度思考,从而更加合理地利用计算资源?

针对该问题,他们提出了一种创新性解决方案。具体来说,本研究首先对非推理模型(模仿人类快思考,直接给出答案)和深度推理模型在简单任务(例如,常识问答和小学生数学题)上均成功解决的问题进行统计,收集这类问题上深度推理模型的推理思维链。通过大量比较推理思维链的异同,本研究总结出“必要推理”和“冗余推理”的多条特征,并根据此将深度推理思维链分类为必要推理和冗余推理,将冗余推理中的深度推理部分删除,构成一批混合推理思维链数据集。最后,基于该数据集对深度推理模型进行监督微调,赋予深度推理模型自动切换快慢思考的能力。

因此,本研究对实现“Test-time Scaling Law”具有十分重要的意义,其赋予了深度推理大模型自动切换快慢思考的能力,使得模型能够更加合理的分配计算资源。因此,模型能够通过内部知识直接给出一些简单问题的答案,也能够开启深度思考,细致地分析一些困难的问题。

据介绍,本次研究项目是 OPPO 与浙江大学联合攻关课题之一。受年初 DeepSeek-R1 一系列研究的启发,该团队尝试着来探索 DeepSeek-R1 模型的相关性质。如前所述,他们发现在使用 DeepSeek-R1 模型时,即使问很简单的问题,例如“1+1=?”或者“请帮我修改我的作业”之类的问题,也会生成特别长的思维链。这实际上是不必要的,不仅增长用户等待时间,还会浪费计算资源。

在研究初期,最困扰该团队的是如何设计稳定的模型输出结果验证器。一方面,他们发现 DeepSeek-R1 这类模型,遵循指令的能力不够优秀。这就导致模型推理的结果不具有特定的格式,加大了提取模型结果的难度。

另一方面,该团队自己构建了许多模型的输出结果验证器,但是这些结果验证器没有很好地考虑各种输出结果的风格,十分不稳定。有时会出现模型回答是正确的,但是并未正确地提取模型的答案。或者提取到错误的模型答案导致无法正确地评估各个模型的效果,以及无法正确地评估该团队所提出方法的效果。

在这个问题解决之后,该团队最初始的方案是想基于 GRPO 算法,利用强化学习的方式去激发出模型快慢思考的能力。然而,DeepSeek-R1 这一类模型指令遵循能力差,该团队设计了许多 prompt,都无法在训练的初期让模型输出跳过深度思考过程的回答。于是该团队转向设计奖励函数,期望能够通过设计一类特殊的奖励函数,让模型的思考过程长度首先降为 0,然后慢慢增长。经过该团队多次尝试,该团队设计了一类在理论上能够达到该效果的奖励函数,但是经过多次尝试,该奖励函数在实际中并未达到该团队的目标效果。

这个时候该团队尝试着使用 DPO 算法,将快思考的回答作为正样本,慢思考的回答作为负样本,进行模型训练。该团队进行了许多实验,DPO 效果极其不稳定,训练出的模型均表现出效果大幅下降。在阅读相关文献后,该团队发现,DPO 这类算法不适合分布剧烈变化的情况。于是最后该团队尝试使用监督微调的方式,进行模型的训练。具体做法是,收集训练集上推理模型的正确回答,删除这其中非推理模型也能解决的问题上推理模型的深度思考过程,使用监督微调进行训练。这个方案在初期取得了相比于之前两个方案更优的效果:模型性能不会大幅下降,同时模型能够开始自行决定是否思考。

然而,该团队发现,这个方案仍然无法很好地迁移到其他场景下,仍然会造成模型性能的大幅降低。于是该团队开始考虑,是否在非推理模型能够解决的问题上,模型的一部分深度思考过程也是必要的。从这个想法出发,该团队开始利用大模型对深度思考过程进行分类,将其分类为有效思考和冗余思考,重新构造数据集进行监督微调。最终,在这个方案下,该团队做出了比较好的效果。尽管该团队的研究已经赋予了推理大语言模型自动切换快慢思考的能力,但目前 OThink-R1 还依赖大模型 LLM-Judge 来判断推理冗余。未来该团队期望继续深入研究,以端到端的方式来赋予模型自动切换快慢思考的能力。

参考资料:

标题:OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

作者:Shengjia Zhang (Zhejiang University), Junjie Wu (OPPO Research Institute), Jiawei Chen (Zhejiang University), Changwang Zhang (OPPO Research Institute), Xingyu Lou (OPPO Research Institute), Wangchunshu Zhou (OPPO Research Institute), Sheng Zhou (Zhejiang University), Can Wang (Zhejiang University), Jun Wang (OPPO Research Institute)

链接: https://arxiv.org/abs/2506.02397

运营/排版:何晨龙

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

球队新闻:凯文进入比赛名单

绿茵情报局 浏览 2 05-09

搭载增程系统 大众ID. ERA 9X将于年内上市

车质网 浏览 10 01-20

今年夏天最流行的5组搭配,谁穿谁好看!

LinkFashion 浏览 9807 06-18

韩澳竞争激烈!双方都有望成为2026世界杯二档球队

直播吧 浏览 9132 07-29

"双普会"后 特朗普打一堆电话问怎么拿诺贝尔和平奖

南风窗 浏览 7226 08-21

加沙多地遭袭 巴武装人员与以军激烈战斗

国际在线 浏览 8669 05-09

《灼灼韶华》褚韶华原著中有多狠?

阿香奇闻世界 浏览 15 09-18

81岁网红被垃圾车撞倒脚完全变形 垃圾车仍继续收垃圾

极目新闻 浏览 17 08-26

寻找AI无法替代的最后一公里丨去现场 做原创

封面新闻 浏览 13 11-08

户外消费掀新潮,运动产业迎来“功能+时尚”双升级格局

中国商报 浏览 14 01-12

蔚来乐道发布换电站电池翻倍计划

电动知家 浏览 14 12-05

两"虎"任上落马 女正部几天前还曾公开露面

上观新闻 浏览 14 08-26

金砖国家人工智能产业合作网络在沪启动

上观新闻 浏览 6707 07-28

TA:23岁布莱顿后卫埃兰-卡欣将租借加盟伯明翰,为期一个赛季

直播吧 浏览 7014 07-25

遇见25年前的自己!穆帅第一次当主帅是37岁在本菲卡,如今已62岁

直播吧 浏览 16 09-19

赛事升级却遭当头棒喝,一众顶尖球员纷纷退赛加拿大赛!

网球之家 浏览 9144 07-24

瞭望 | 宇宙寻亲新路径

新华社 浏览 13 11-25

女主播被伪装的炸弹包裹炸伤:拿起看了一眼就爆炸了

极目新闻 浏览 19 10-17

《你行!你上!》首映口碑出炉,观众的评价出奇的一致

娱乐圈笔娱君 浏览 3272 07-19

空中客车:任命王璀担任全球高级副总裁及空客中国民用飞机商务负责人

经济观察网 浏览 20 09-29

房地产市场结构变化催生业务机会

商业观察杂志社 浏览 21 09-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2