专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
目录
相关文章推荐
今天看啥  ›  专栏  ›  集智书童

奇虎360+人大开源 Light-R1 | 性能与QwQ-32B和DeepSeek-R1相当

集智书童  · 公众号  ·  · 2025-04-16 09:00
    

文章预览

更多内容,点击下方关注【 AGI之门 】公众号 获取更多实时AGI相关解读 扫描下方二维码,添加小助手微信     导读 首先,作者关注从头开始训练长COT模型,特别是从最初缺乏长COT能力的模型开始。作者使用包含两阶段SFT和半策略DPO的课程训练方法,从Qwen2.5-32B-Instruct模型中训练出Light-R1-32B模型,其数学性能优于DeepSeek-R1-Distill-Qwen-32B。尽管Light-R1-32B仅在数学数据上训练,但它在其他领域表现出强大的泛化能力。在本工作的后续阶段,作者强调了为第二阶段SFT构建的 数据集对增强其他模型的显著益处。通过使用此数据集微调DeepSeek-R1-Distilled模型,作者在7B和14B模型中获得了新的SOTA模型,而32B模型Light-R1-32B-DS的表现与QwQ-32B和DeepSeek-R1相当。 此外,作者通过将强化学习,特别是GRPO,应用于长COT模型,进一步提升了推理性能。作者成功使用强化学习训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览