注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

黑马营销 · 本地生意如何推「远」？5大品牌带来营销新思路 · 17 小时前

艾奇SEM · 正在邀请！全国广告优化师学习交流群招募中… · 昨天

艾奇SEM · 小红书可以直接挂淘宝链接了，这是要放弃电商了吗？ · 昨天

销售与市场 · 精准营销的“七宗罪” · 昨天

今天看啥 › 专栏 › 吃果冻不吐果冻皮

RLHF替代方案：在SFT以外，我们还能拿SFT数据做什么？

吃果冻不吐果冻皮 · 公众号 · · 2024-06-16 09:39

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/699978994 我们最近的工作提出RLHF的一种廉价/实用的替代方案：Alignment from Demonstrations (AfD) 而非 Alignment from Preference-based Data。引入Inverse RL trajectory matching的视角，帮助理解了什么时候应该做SFT，什么时候应该更进一步地做 Reward Modeling，以及应该如何使用SFT数据进行Reward Modeling。 arXiv：https://arxiv.org/pdf/2405.15624 1. Motivation：从SFT和专家数据讲起在大语言模型对齐的任务中，我们已经熟悉了InstructGPT / Constitutional AI里面的那一套先SFT，后preference learning的框架模式，但是在很多现实场景中，给模型的输出打标记并不是一件容易的事情。在做RLHF相关工作的早期，我尝试过用GPT3.5给一些SFT过的模型输出做标记，这个信噪比太低了，即使是用价格相对便宜的GPT3.5我也觉得肉疼。。（这么想来，当初能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黑马营销 · 本地生意如何推「远」？5大品牌带来营销新思路

17 小时前

艾奇SEM · 正在邀请！全国广告优化师学习交流群招募中…

昨天

艾奇SEM · 小红书可以直接挂淘宝链接了，这是要放弃电商了吗？

昨天

销售与市场 · 精准营销的“七宗罪”

昨天

芯智讯 · AMD Zen5C/Zen6细节曝光：最高192核心！

11 月前

思宇MedTech · 全球首个！重组A型肉毒素获批医疗适应症临床

9 月前

澎湃新闻 · “爱在深秋”再开社媒账号？此前账号被封

5 月前

阅徒 · 【初级】12月14日：鳌鱼沟-东胡林「寻找冰瀑」「探洞」

4 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号