注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

游戏研究社 · 《艾尔登法环》真人电影官宣，由《机械姬》导演执导 · 12 小时前

游戏茶馆 · 5月144款版号下发，完美世界二游《异环》拿 ... · 2 天前

海外独角兽 · Agent Infra ... · 2 天前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

FlexRLHF-分布式RLHF系统

吃果冻不吐果冻皮 · 公众号 · · 2025-05-08 08:15

文章预览

原文： https://zhuanlan.zhihu.com/p/1896666335670432879 背景 FlexRLHF（ https://arxiv.org/html/2312.11819v3）是本人23年主导的工作，当时还有其他几位主力开发一起协作。23年的时候，可以参考工作只有 trlx 和 DeepSpeed Chat ， FlexRLHF在trlx和Deepspeed Chat的基础上，提出了交错和分离式RLHF策略，并且支持训练和推理采用不同的框架和不同的并行模式。目前网上关于RLHF的分布式策略，FlexRLHF基本也都能囊括。本文主要分享一下如何一步步设计出FlexRLHF这样的系统，文章仅代表个人工作的思考总结。总结下来如下： 1，FlexRLHF抽象了RLHF领域的多种分布式策略，这些分布式策略是根据RLHF系统的特点，结合算力、通信、显存3个硬件，一步步迭代而来。 2，当系统需要这些分布式策略的时候，就需要设计一个合理的运行时和用户API，以便系统能更灵活的支持这些分布式策略。 3，有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

游戏研究社 · 《艾尔登法环》真人电影官宣，由《机械姬》导演执导

12 小时前

游戏茶馆 · 5月144款版号下发，完美世界二游《异环》拿到版号了

2 天前

海外独角兽 · Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

2 天前

中国基金报 · 客群突破3亿人，规模增长超15%！这一理财市场大爆发

7 月前

新微设计 · 600㎡大平层，示范了真正的空中豪宅

5 月前

道说区块链 · 为什么会有行情焦虑？

4 月前

海南应急管理 · 海南省灾害监测预警中心发布清明假期公众安全风险提示

1 月前

张丽俊 · 大佬都爱运动，背后不简单

4 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号