专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

新智元  · 公众号  · AI  · 2025-02-18 14:47
    

文章预览

   新智元报道   编辑:KingHZ 英智 【新智元导读】 强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了! DeepSeek-R1带火了使用强化学习训练LLM。在训练中,AI灵机一动,让作者耳目一新,甚至因此惊叹到:这就是强化学习的力与美! DeepSeek-R1-Zero惊艳了研究人员 然而,对RL训练的理解存在空白:这些工作的训练数据的透明度有限,谁知道是方法好还是数据集质量好? 刚刚出炉的新论文揭示了RL训练的另一面,探讨了一个核心问题: 在提升语言模型推理能力方面,什么真正决定了强化学习(RL)训练数据的有效性? 研究团队对「扩大RL训练数据规模,就能提升模型性能」这一观念提出了挑战。 核心发现是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览