专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
今天看啥  ›  专栏  ›  人工智能学家

LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了

人工智能学家  · 公众号  · AI  · 2025-05-28 17:31
    

文章预览

来源:机器之心报道 编辑:泽南、+0 我们训练了这么久,都在训练些什么? 这是今年最「好笑」的一篇论文。 本文一出,所有的大语言模型(LLM)+ 强化学习(RL)都要被质疑是否有意义了。 这周二,一篇来自华盛顿大学、艾伦人工智能实验室、伯克利的论文引爆了 AI 界。 论文:Spurious Rewards: Rethinking Training Signals in RLVR 项目链接:https://github.com/ruixin31/Rethink_RLVR/tree/main 作者驳斥了最近大模型领域盛行的强化学习方式,他们发现: 使用虚假奖励训练 Qwen2.5-Math-7B 模型也可以提高 MATH-500 的成绩,如果是随机奖励,成绩能提高 21%,如果是错误奖励,成绩能提升 25%(真实奖励能提升 28.8%)。 这是怎么一回事?大模型的训练技巧真的有用吗?该工作的作者写了一篇博客进行了介绍: 质疑强化学习 (RLVR) 传统观点 近一段时间,可验证奖励强化学习(RLVR) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览