专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

FlexRLHF-分布式RLHF系统

吃果冻不吐果冻皮  · 公众号  ·  · 2025-05-08 08:15
    

文章预览

原文: https://zhuanlan.zhihu.com/p/1896666335670432879 背景 FlexRLHF( https://arxiv.org/html/2312.11819v3) 是本人23年主导的工作,当时还有其他几位主力开发一起协作。23年的时候,可以参考工作只有 trlx 和 DeepSpeed Chat , FlexRLHF在trlx和Deepspeed Chat的基础上,提出了交错和分离式RLHF策略,并且支持训练和推理采用不同的框架和不同的并行模式。目前网上关于RLHF的分布式策略,FlexRLHF基本也都能囊括。本文主要分享一下如何一步步设计出FlexRLHF这样的系统,文章仅代表个人工作的思考总结。 总结下来如下: 1,FlexRLHF抽象了RLHF领域的多种分布式策略,这些分布式策略是根据RLHF系统的特点,结合算力、通信、显存3个硬件,一步步迭代而来。 2,当系统需要这些分布式策略的时候,就需要设计一个合理的运行时和用户API,以便系统能更灵活的支持这些分布式策略。 3,有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览