前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大语言模型、语言模型、预训练的,喜欢的小伙伴赶紧去阅读相关论文吧。1. 数据集重置策略优化用于RLHF 标题:Dataset Reset Policy Optimization for RLHF 机构:微软研究院 相关领域:RLHF 作者:Jonathan D. Chang, Wenhao Shan, Owen Oertell 分析:作者提出了一种新的RLHF算法,名为Dataset Reset Policy Optimization (DR-PO),通过数据集重置将离线的偏好数据集整合到在线策略训练过程中,而不是始终从初始状态分布开始。理论上,作者证明DR-PO至少可以表现得和离线数据集覆盖的任何策略一样好。实验结果显示,在TL;DR总结和人类有害有益(HH)数据集上,DR-PO生成的结果比PPO和DPO更好,在GPT4胜率指标下。作者的方法取得了显著的效果。 地址:https://arxiv.org/pdf/2404.08495 代码:https://github.com/Cornell-RL/drpo2. Scalin
………………………………