奇虎360+人大开源 Light-R1 | 性能与QwQ-32B和DeepSeek-R1相当

集智书童 · 公众号 · · 2025-04-16 09:00

文章预览

更多内容，点击下方关注【 AGI之门】公众号获取更多实时AGI相关解读扫描下方二维码，添加小助手微信导读首先，作者关注从头开始训练长COT模型，特别是从最初缺乏长COT能力的模型开始。作者使用包含两阶段SFT和半策略DPO的课程训练方法，从Qwen2.5-32B-Instruct模型中训练出Light-R1-32B模型，其数学性能优于DeepSeek-R1-Distill-Qwen-32B。尽管Light-R1-32B仅在数学数据上训练，但它在其他领域表现出强大的泛化能力。在本工作的后续阶段，作者强调了为第二阶段SFT构建的数据集对增强其他模型的显著益处。通过使用此数据集微调DeepSeek-R1-Distilled模型，作者在7B和14B模型中获得了新的SOTA模型，而32B模型Light-R1-32B-DS的表现与QwQ-32B和DeepSeek-R1相当。此外，作者通过将强化学习，特别是GRPO，应用于长COT模型，进一步提升了推理性能。作者成功使用强化学习训练 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博