专栏名称: 赛尔实验室
哈尔滨工业大学社会计算与信息检索研究中心
今天看啥  ›  专栏  ›  赛尔实验室

赛尔原创@COLING24 |无需标注即可增强模型 COT 能力

赛尔实验室  · 公众号  · 程序员  · 2024-05-13 11:23
论文名称:Improving Language Model Reasoning with Self-motivated Learning论文作者:冯云龙,徐阳,覃立波,王雅圣,车万翔*Arxiv:https://arxiv.org/abs/2404.07017原创作者:冯云龙转载须标注出处:哈工大SCIR背景大规模高质量的训练数据对于提升模型性能至关重要。在使用包含推理步骤(rationales)的数据进行训练后,模型能够获得推理能力。然而, 由于高标注成本, 拥有高质量推理步骤的数据集相对稀缺。为解决这个问题, 我们提出了自我激励学习 (Self-motivated Learning) 框架。该框架激励模型自我生成现有数据集的推理步骤。通过学习多个推理步骤的内在正确性排名,模型学会生成更优质的推理,从而提高其推理能力。具体来说,我们训练了一个奖励模型, 使用这种排名来评估推理的质量, 并通过强化学习提升推理性能。 Llama2 7B模型在多个推理数据集上的实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照