今天看啥  ›  专栏  ›  AI寒武纪

Thinking Machines 发布又一神作「在线策略蒸馏」 ,LLM后训练效率飙升50-100...

AI寒武纪  · 公众号  · AI  · 2025-10-28 06:16
    

主要观点总结

本文介绍了Mira的THINKING MACHINES使用了一种新的LLM后训练方法:On-Policy Distillation。这种方法结合了强化学习和监督微调的优势,旨在提高模型性能并降低成本。

关键观点总结

关键观点1: 在线策略蒸馏的核心思想

在线策略蒸馏是一种强大的技术,它将在线策略(如强化学习)和离线策略(如监督微调)的优点结合起来。它通过让教师模型对学生的每一步进行打分,将强化学习中稀疏的、滞后的最终奖励,转化为了密集的、即时的过程奖励,从而极大地提高了训练的计算效率,并使模型能够更精确地学习如何从错误中恢复。

关键观点2: 在线策略蒸馏的应用案例一

实验验证了在线策略蒸馏在数学推理能力迁移方面的效果。通过将学生模型与教师模型的性能进行比较,发现在线策略蒸馏在计算效率上大幅度超越了传统方法,实现了同等或更好的性能提升,同时大大减少了计算成本。

关键观点3: 在线策略蒸馏的应用案例二

在线策略蒸馏在模型个性化与持续学习方面的应用也得到了展示。实验模拟了模型需要学习新领域知识并适应个性化需求的场景,发现传统的微调方法会导致模型遗忘原有的重要能力。而在线策略蒸馏作为一种能力恢复工具,能够帮助模型在保持已有能力的同时学习新能力。

关键观点4: 在线策略蒸馏的优势分析

在线策略蒸馏之所以高效的原因在于其密集的监督信号提升了信息效率,高效的数据复用能力,以及从搜索到直接教学的本质转变。此外,它还适合持续学习任务,能够保持模型能力和知识的更新。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照