专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

RLHF替代方案:在SFT以外,我们还能拿SFT数据做什么?

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-16 09:39
    

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/699978994 我们最近的工作提出RLHF的一种廉价/实用的替代方案:Alignment from Demonstrations (AfD) 而非 Alignment from Preference-based Data。引入Inverse RL trajectory matching的视角,帮助理解了什么时候应该做SFT,什么时候应该更进一步地做 Reward Modeling,以及应该如何使用SFT数据进行Reward Modeling。 arXiv:https://arxiv.org/pdf/2405.15624 1. Motivation:从SFT和专家数据讲起 在大语言模型对齐的任务中,我们已经熟悉了InstructGPT / Constitutional AI里面的那一套先SFT,后preference learning的框架模式,但是在很多现实场景中,给模型的输出打标记并不是一件容易的事情。在做RLHF相关工作的早期,我尝试过用GPT3.5给一些SFT过的模型输出做标记,这个信噪比太低了,即使是用价格相对便宜的GPT3.5我也觉得肉疼。。(这么想来,当初能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览