RL真让大模型更会推理？清华新研究：其能力边界或仍被基座「锁死」

机器之心 · 公众号 · AI · 2025-04-25 08:33

主要观点总结

本文介绍了清华大学和上海交通大学的一项最新研究，该研究探讨了强化学习（RL）在大模型中是否真的能够带来超越基础模型的新推理能力。通过数学、代码和视觉推理等三大领域的系统性实验，研究团队发现当前的RLVR方法并未突破基础模型的能力上限，强化学习只是让模型更偏向高奖励解决方案，而非创造新的推理能力。

近年来，RLVR训练大模型在数学、代码等各项任务中表现惊艳，强化学习被视为重要的推手。然而，关于强化学习是否真的能让大模型获得超越基础模型的新推理能力，存在争议。

清华大学LeapLab团队联合上海交通大学开展实证研究，通过数学、代码、视觉推理三大领域的系统性实验，揭示了一个重要现象：当前的RLVR方法并未突破基础模型的能力上限。

RLVR训练模型在某些任务中的表现不如未使用强化学习的基座模型。RLVR只是将采样做得更有效率，但其输出的正确答案早已藏在基座模型的“基因”里。强化学习提高了采样效率，但缩小了推理能力边界。

研究团队使用了pass@k指标来揭示模型的“能力边界”，并通过多个数学基准测试来对比基础模型和经过强化学习训练的对应模型的表现。

该研究为当前火热的RL训练热潮提供了冷思考，提示我们重新思考强化学习在大模型能力提升中的角色，以及如何在知识表征、认知结构和推理脉络等方面进行创新。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

AI科技评论 · 最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

21 小时前

爱可可-爱生活 · 本文提出了一个革命性的多智能体记忆系统MIRIX，其通过模仿人脑-20250714061141

昨天

新智元 · 从OpenAI叛逃谷歌！这位27岁小哥，成了奥特曼最忌惮的「秘密武器」

2 天前

爱可可-爱生活 · 本文通过精准的错误分析揭示了现有强化学习方法在多模态推理中“视而-20250713055105

2 天前

黄建同学 · AI 视频生成开始逐步变得有声了↓Google Gemini V-20250712194352

2 天前

中交广航 · 公司主要领导赴武汉开展系列商务活动

1 年前

严道医声网 · CDQI国家标准化冠心病中心能力提升项目—声光同步一览全景—腔内影像培训学院第一期圆满闭幕

1 年前

壶关小灵通 · 惊险！长治一孩子误食水银......

2 月前