微软提出DR-PO：基于数据集重置的RLHF优化 | Scaling (Down) : 有限计算预算下缩小规模时模型表现....

AIforResearch · 公众号 · · 2024-04-15 17:59

前言：平淡无奇的一天又来了，今天要分享的内容主要是关于大语言模型、语言模型、预训练的，喜欢的小伙伴赶紧去阅读相关论文吧。1. 数据集重置策略优化用于RLHF 标题：Dataset Reset Policy Optimization for RLHF 机构：微软研究院相关领域：RLHF 作者：Jonathan D. Chang, Wenhao Shan, Owen Oertell 分析：作者提出了一种新的RLHF算法，名为Dataset Reset Policy Optimization (DR-PO)，通过数据集重置将离线的偏好数据集整合到在线策略训练过程中，而不是始终从初始状态分布开始。理论上，作者证明DR-PO至少可以表现得和离线数据集覆盖的任何策略一样好。实验结果显示，在TL;DR总结和人类有害有益（HH）数据集上，DR-PO生成的结果比PPO和DPO更好，在GPT4胜率指标下。作者的方法取得了显著的效果。地址：https://arxiv.org/pdf/2404.08495 代码：https://github.com/Cornell-RL/drpo2. Scalin ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

中国农业银行江苏分行 · 服务升温温暖有我 | 闻“雪”而动，扫出一条“暖心路”

3 月前

传媒圈招聘 · 巍莱可期经纪公司招聘实习生！

10 月前

Lolita拔草备用姬 · 【无名千金】仙女们求选个色，过年🧧快花完了只打算入一个色，两个-20210216154315

3 年前

钩魂姥姥 · 最彻底的人文主义者：勃鲁盖尔

4 年前

有味读书 · 太变态了，英国外科男医生发明的这款比裸睡还舒适的零压内衣，月销50000件！价格不到5英镑

6 年前