今天看啥  ›  专栏  ›  GLM大模型

ReST-MCTS*!强化自训练,让大模型持续「升级」

GLM大模型  · 公众号  ·  · 2024-11-05 14:43
    

文章预览

大语言模型(LLM)的自训练(self-training),是验证 Scaling Law 能否继续奏效的关键方法之一。  然而,由于 「错误或无用的中间奖励信号」 ,现有自训练方法通常会产生低质量的微调训练集(如不正确的规划或中间推理),尽管这可能不会影响 LLM 在一些任务中的正确性,但却会 限制 LLM 微调复杂任务的最终性能 。  语言模型生成的错误或者无用的中间推理步骤,也可能产生正确的解题思路。也就是说,即使推理路径产生正确的解题思路,也不一定意味着整个路径是准确的。   解决方法之一是使用价值函数或者奖励模型来验证推理路径的正确性,然后作为自训练的学习信号。然而,训练一个可靠的奖励模型来验证推理路径中的每一步,通常依赖于密集的人类标注(每个推理步骤),并不能很好地扩展。  基于对此问题的考虑,我们提出了 强化 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览