主要观点总结
本文主要介绍了使用StableReinforce算法训练的多模态奖励模型R1-Reward,解决了强化学习在奖励建模中的训练不稳定、优势归一化限制以及推理和结果不一致等问题。实验结果表明,R1-Reward在多个多模态奖励模型基准上超越了现有最先进的模型,具有优秀的推理时扩展能力。
关键观点总结
关键观点1: R1-Reward模型介绍
R1-Reward是一种多模态奖励模型,使用StableReinforce算法进行训练,旨在解决强化学习在奖励建模中的挑战。
关键观点2: 解决的问题
R1-Reward解决了训练不稳定、优势归一化限制以及推理和结果不一致等关键问题。
关键观点3: StableReinforce算法的特点
StableReinforce算法通过引入Pre-Clipping、优势过滤、一致性奖励以及渐进式训练策略,有效稳定了训练过程并提升了模型性能。
关键观点4: 实验结果
R1-Reward在多个多模态奖励模型基准上超越了现有最先进的模型,取得了显著进展,并且展示了优秀的推理时扩展能力。
文章预览
点击下方 “ AINLPer “ ,添加 关注 更多干货,第一时间送达 更多精彩内容 -> 专注大模型、Agent、RAG等前沿分享! 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战,尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基
………………………………