专栏名称: 青稞AI

青年AI研究员idea加油站，AI开发者的新能源充电桩。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

探索为什么要融合SFT和RL，以及应该怎么融合

青稞AI · 公众号 · AI · 2025-07-18 00:00

主要观点总结

本文主要介绍了关于人工智能领域中的融合SFT和RL技术的研究。文章详细介绍了将SFT和RL融合为单一阶段的方法，包括基础知识、交替进行SFT和RL的方法、将SFT用作RL中的Off-Policy样本、同时进行SFT和RL的方法，以及将SFT用作hint等。文章还提到了相关的研究论文及其链接。

关键观点总结

关键观点1: 为什么要融合SFT和RL

RL能够有效提升模型的推理能力，但在一些情况下存在局限性。SFT可以赋予模型一些基础能力，然后利用RL来提升相关能力。一些研究表明，直接将两者独立分开存在弊端，因此有必要将SFT和RL融合为单一阶段。

关键观点2: 基础知识介绍

在标准的LLM训练流程中，通常包含三个阶段：Pre-training、SFT和RL。其中，SFT和RL是后训练阶段，对于模型的性能提升至关重要。

关键观点3: 交替进行SFT和RL的方法

ReLIFT认为RL改善中低难度问题，SFT改善高难度问题，因此设计了一种交替方案。在RL过程中将完全错误的样本放入缓冲池，当缓冲池满时，利用这些样本进行SFT。

关键观点4: 将SFT用作RL中的Off-Policy样本的方法

LUFFY将SFT用作Off-Policy样本，然后通过重要性采样将其统一在RL过程中。这种方式更自然一些。

关键观点5: 同时进行SFT和RL的方法

SRFT采用了偏向于实践的风格，即同时采用SFT和RL损失。它结合了SFT损失函数、Off-Policy RL损失函数和On-Policy RL损失函数，从而同时进行SFT和RL。

关键观点6: 将SFT用作hint的方法

在某些方法中，SFT被用作hint，即问题和部分正确答案的拼接。这有助于解决标准RL中针对难问题无法rollout出正样本的问题。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · ComfyUI Docker 镜像：稳定高效的节点式 Stabl-20250718142406

21 小时前

黄建同学 · Maziyar PANAHI 开源了380+最先进的NER模型↓-20250718073722

昨天

机器之心 · 「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

昨天

爱可可-爱生活 · [LG]《Biological Processing Units-20250717060049

2 天前

新智元 · 一键实现PPT演讲自由！「解说音频+视频」同步生成，效果逼近真人

2 天前

字节跳动技术团队 · 字节跳动多媒体实验室联合ISCAS举办第四届神经网络视频编码竞赛

1 年前

零跑汽车 · 有奖征集｜满电出行，分享你的旅行体验

9 月前

鞭牛士 · DeepSeek启动开源周；Kimi仲裁案未和解；库克发文缅怀乔布斯 | 晚报

4 月前

连岳 · 打不过，总是想逃跑

4 月前

青岛日报 · 36人“被开”！华为内部通报

4 月前