文章预览
更多内容,点击下方关注【 AGI之门 】公众号 获取更多实时AGI相关解读 扫描下方二维码,添加小助手微信 导读 首先,作者关注从头开始训练长COT模型,特别是从最初缺乏长COT能力的模型开始。作者使用包含两阶段SFT和半策略DPO的课程训练方法,从Qwen2.5-32B-Instruct模型中训练出Light-R1-32B模型,其数学性能优于DeepSeek-R1-Distill-Qwen-32B。尽管Light-R1-32B仅在数学数据上训练,但它在其他领域表现出强大的泛化能力。在本工作的后续阶段,作者强调了为第二阶段SFT构建的 数据集对增强其他模型的显著益处。通过使用此数据集微调DeepSeek-R1-Distilled模型,作者在7B和14B模型中获得了新的SOTA模型,而32B模型Light-R1-32B-DS的表现与QwQ-32B和DeepSeek-R1相当。 此外,作者通过将强化学习,特别是GRPO,应用于长COT模型,进一步提升了推理性能。作者成功使用强化学习训练
………………………………