万字长文梳理LLM+RLHF的脉络

包包算法笔记 · 公众号 · · 2024-10-21 10:00

文章预览

作者：王小惟 Weixun 原文：https://zhuanlan.zhihu.com/p/1686790674 片面的脉络梳理，主要是希望能帮助大家建立一个更全局的视角，因为篇幅有限，仅包含了支撑脉络的工作，同时也没有含括最新的工作，如有遗漏，望各位同仁包涵。总体的思维脑图地址（可能需要翻墙）： raw.githubusercontent.com [1] 提纲部分：本文从4个部分来介绍，首先是偏好优化算法，主要分为2两大类： • 第一类，先建模偏好奖赏模型，再采用RL优化。主要包含PPO算法本身的粗糙介绍，然后进一步考虑到在LLM训练设定中，使用PPO带来复杂优化pipeline对调度与显存的开销相对较大。所以，我对针对LLM优化提出的几种算法改动，主要从降低成本的角度来进行理解与建立联系。 • 接着，我们转向第二类，直接从数据优化偏好，这部分我将其视为offline RL联合Reward Model优化的视角。从DPO出发， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

苹果团(AppleTuan) · 【五一假期愉快】Mac/iPhone/iPad最新报价已更新

13 小时前

苹果团(AppleTuan) · 苹果Apple Watch SE 3手表屏幕已量产；曝iPhone 17系列大规模运用AI功能；Meta推出独立AI应用

2 天前

苹果团(AppleTuan) · 【周三】Mac/iPhone/iPad最新报价已更新

2 天前

璀璨科学 · 太空归来后，神十七航天员乘组正式亮相，返航时航天员为何被抬着走

10 月前

撸猫教授 · 孩子长大了，都知道举哑铃锻炼肌肉了

6 月前

新西兰中文先驱 · 奥克兰又一顶级豪宅曝光！270度无敌海景，价超千万纽币！

2 月前