看啥推荐读物
专栏名称: AIforResearch
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
目录
相关文章推荐
今天看啥  ›  专栏  ›  AIforResearch

微软提出DR-PO:基于数据集重置的RLHF优化 | Scaling (Down) : 有限计算预算下缩小规模时模型表现....

AIforResearch  · 公众号  ·  · 2024-04-15 17:59
前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大语言模型、语言模型、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。1. 数据集重置策略优化用于RLHF  标题:Dataset Reset Policy Optimization for RLHF  机构:微软研究院  相关领域:RLHF  作者:Jonathan D. Chang, Wenhao Shan, Owen Oertell  分析:作者提出了一种新的RLHF算法,名为Dataset Reset Policy Optimization (DR-PO),通过数据集重置将离线的偏好数据集整合到在线策略训练过程中,而不是始终从初始状态分布开始。理论上,作者证明DR-PO至少可以表现得和离线数据集覆盖的任何策略一样好。实验结果显示,在TL;DR总结和人类有害有益(HH)数据集上,DR-PO生成的结果比PPO和DPO更好,在GPT4胜率指标下。作者的方法取得了显著的效果。  地址:https://arxiv.org/pdf/2404.08495  代码:https://github.com/Cornell-RL/drpo2. Scalin ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照