关闭广告

清华大学发现:AI教学方法决定死记硬背或真正理解

科技行者2025-09-21 00:00:021人阅读


这项由香港大学、加州大学伯克利分校以及谷歌DeepMind等顶尖机构联合进行的研究发表于2025年第42届国际机器学习大会(ICML),研究团队由朱天哲、翟越翔等多位学者共同完成。有兴趣深入了解的读者可以通过项目主页https://tianzhechu.com/SFTvsRL获取完整论文信息。

想象你面前有两个孩子在学数学,一个死记硬背乘法表,考试时只要题目稍有变化就抓瞎;另一个真正理解了乘法原理,遇到新题型也能触类旁通。这就是当前AI训练中的一个根本性问题——我们的AI到底是在"死记硬背"还是在"真正学习"?

长期以来,训练AI就像教育孩子一样,主要有两种方法:一种叫做监督微调(SFT),就像传统的填鸭式教育,给AI看大量标准答案,让它模仿;另一种叫做强化学习(RL),更像启发式教育,让AI在尝试中学习,做对了给奖励,做错了给惩罚。但是这两种方法哪种更能让AI真正"开窍",一直是个未解之谜。

研究团队就像教育专家一样,设计了精巧的实验来探究这个问题。他们创建了一个类似"算24点"的数学游戏,给AI四张卡片,让它用加减乘除算出24这个数字。更巧妙的是,他们还设计了不同的"考试规则"——有时候J、Q、K代表10,有时候代表11、12、13,就像同一道数学题用不同的符号系统表达。

结果令人震撼。当面对新规则时,用强化学习训练的AI就像那个真正理解数学原理的孩子,能够灵活应对变化,成功率显著提升。比如在纯文本环境中,强化学习让AI的表现从80.8%提升到91.8%,提升了整整11个百分点。而监督微调训练的AI就像死记硬背的学生,一遇到新规则就"傻眼"了,表现从80.8%暴跌到仅仅1.3%,几乎完全失效。

但故事还没有结束。研究团队又引入了视觉挑战——不再用文字描述卡片,而是让AI看真实的卡片图像。这就像让孩子不仅要会算数,还要能认识不同字体写的数字。在这种情况下,强化学习训练的AI依然表现出色,不仅能准确识别卡片,还能灵活运用数学规则。

更有趣的是,研究团队发现了一个类似"因材施教"的现象。虽然强化学习在培养AI的"真正理解力"方面表现突出,但监督微调仍然有其独特价值——它就像教孩子基本的行为规范和表达格式,让AI学会如何"好好说话"。如果跳过这个基础训练直接用强化学习,就像让一个连话都说不清楚的孩子直接学高等数学,效果会很差。

研究团队还测试了一个真实世界的导航任务,让AI在城市中根据指令找路。当训练环境是绝对方向(东南西北)而测试环境改为相对方向(左转右转)时,同样的现象再次出现:强化学习训练的AI能够成功适应新的表达方式,而监督微调的AI则迷失在规则变化中。

这些发现就像教育心理学的重大突破一样意义深远。研究显示,强化学习不仅让AI学会了更深层的推理能力,甚至还意外提升了它的视觉识别能力。这就好比一个孩子在学数学的过程中,不仅数学变好了,连观察力也变强了。

当然,这项研究也揭示了一些局限性。就像教育需要因材施教一样,AI训练也需要根据具体情况选择合适的方法。如果初始模型太"笨"(不会基本表达),或者已经被训练得过度"固执"(过度拟合),强化学习也难以发挥作用。

这项研究的意义远不止于学术探讨。在ChatGPT、Claude等AI助手日益普及的今天,理解如何让AI真正"聪明"而不是仅仅"博学",对于构建更可靠、更智能的AI系统具有重要意义。未来,我们可能会看到更多结合两种训练方法优势的AI系统——既有扎实的基础(监督微调),又有灵活的思维(强化学习)。

说到底,这项研究告诉我们一个简单而深刻的道理:无论是教育孩子还是训练AI,死记硬背只能应付已知问题,而真正的智慧来自于在挑战中学习和适应。正如古语所说,"授人以鱼不如授人以渔",给AI标准答案不如教会它思考的方法。这或许就是人工智能向真正智能迈进的关键一步。

当我们下次使用AI助手时,不妨想想这个问题:它是在背诵训练时见过的内容,还是在真正理解我们的需求?这项研究为我们提供了答案的线索,也为AI的未来发展指明了方向。

Q&A

Q1:监督微调和强化学习在AI训练中有什么区别?

A:监督微调就像传统的填鸭式教育,给AI看大量标准答案让它模仿,类似死记硬背。强化学习更像启发式教育,让AI在尝试中学习,做对了给奖励,做错了给惩罚,培养真正的理解能力。

Q2:为什么强化学习训练的AI面对新规则表现更好?

A:强化学习让AI学会了底层的推理原理,而不是简单记忆表面规律。就像真正理解数学原理的学生遇到新题型也能触类旁通,而死记硬背的学生一遇到变化就束手无策。

Q3:监督微调在AI训练中还有价值吗?

A:绝对有价值。监督微调就像教孩子基本的行为规范,让AI学会如何"好好说话"和正确表达。研究发现,如果跳过监督微调直接用强化学习,效果会很差,因为AI连基本的表达格式都不会。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

芦哲:美联储全年降息预期仍存在回调风险——海外周报

首席经济学家论坛 浏览 3185 08-19

AI对话框正在涌入“广告”

第一财经资讯 浏览 4725 07-25

逾万家企业面临风险,微软服务器软件遭遇全球性网络攻击

华尔街见闻官方 浏览 9400 07-22

34亿"并购造假案"判了

网易财经 浏览 6899 07-30

E句话|当年的《还珠格格》,柳红片酬比五阿哥高?

仙女事件簿 浏览 7096 07-11

90后不会做饭拯救了餐饮业?90后不逛街,他们却赚疯了!

诗与星空 浏览 4350 07-23

特朗普与美防长发表讲话:俄乌冲突很快将全面停火

央视新闻客户端 浏览 8817 03-22

英超9月赛程:9月14日曼市德比,9月20日红魔战蓝军、枪手对蓝月

直播吧 浏览 8166 07-24

全市场:S-埃斯波西托吸引四支意甲球队,都希望租借+选择买断

直播吧 浏览 4289 07-23

4人在青海无人区失联超30小时 为求救曾徒步40多公里

上游新闻 浏览 3438 07-29

今年夏天流行的“多巴胺裙子”太美了,时髦又减龄!

LinkFashion 浏览 2269 07-25

突破40年Dijkstra算法瓶颈,清华教授等颠覆教科书!斩获STOC最佳论文

新智元 浏览 9612 08-11

极米港股IPO的AB面:利润增长20倍,百度等股东却持续减持

野马财经 浏览 1 08-30

男子在梅里雪山失联20天 女友悬赏寻人:找到活人20万

红星新闻 浏览 968 08-13

陈芋汐谈第五次世锦赛:还是特别兴奋,希望有好的表现让自己满意

直播吧 浏览 4946 07-22

东风风行陈来:年内推12款新车 加速建设海外工厂

网易汽车 浏览 3039 04-28

穿来穿去,发现50+女人夏天离不开过膝裙和阔腿裤,遮肉时髦

静儿时尚达人 浏览 8523 06-30

起拍价618万 抗日将领李默庵故居以2913万落槌成交

封面新闻 浏览 739 08-12

马斯克的30美元“AI女友”,是智商税吗?

首席商业评论 浏览 9331 07-19

走向台前的CFO,先解决“内耗”

惊蛰研究所 浏览 8694 07-26

张继科质问:有教练45分钟收费200,真敢收,比我还高,啥水平啊

风过乡 浏览 4807 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2