专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

John Schulman：RLHF的实施与挑战 —— 通过强化学习缓解大模型输出幻觉(Hallucinations)的思考

关于NLP那些你不知道的事 · 公众号 · · 2023-11-20 06:35

作者：卷不动躺不平原文地址：https://zhuanlan.zhihu.com/p/640144131类型: 技术分享论文：《Reinforcement Learning from Human Feedback: Progress and Challenges》论文地址：https://www.youtube.com/watch?v=hhiLw5Q_UFg本文为 @卷不动躺不平投稿原创转载！如有侵权，麻烦告知删除！ John Schulman，研究科学家、OpenAI联合创始人；加州大学伯克利分校计算机科学博士，师从Pieter Abbeel。现领导OpenAI强化学习团队。本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Feedback: Progress and Challenges》的内容总结，并加入一些本人的个人看法及疑惑，由于本人能力有限，内容不保证完全正确，欢迎大家一起讨论并批评指正。特别感谢Oneflow对该报告的中文翻译John Schulman：强化学习与真实性，通往TruthGPT之路，本文中的部分内容直接引用了相关的中文翻译文本。1. LLM为什么会出现幻 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博