专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

Deepresearch核心技术:如何通过强化学习增强推理大模型搜索规划及反馈能力?

老刘说NLP  · 公众号  ·  · 2025-04-05 11:15
    

文章预览

今天是2025年4月5日,星期六,清明假期第二天,北京,天气晴。 现在关于Deepresearch的复现和应用越来越多,也对大模型的规划能力有了越来越多的要求。 假设大模型能力很强,我们可以使用 CoT Only ,仅使用Chain-of-Thought (CoT)推理生成答案,不访问任何外部参考上下文。或者使用 RAG ,结合Chain-of-Thought推理和检索到的参考上下文来指导答案生成过程,进一步的,也有Search-o1融合推理模型完成搜索增强。 但是, 前面几种方案都依赖于模型自身的能力,比较受限,所以,如何通过强化学习的方式,让推理大模型具备推理能力,显得很有必要 。 因此,我们来看看最近的几个代表工作,包括Search-R1、R1-Searcher以及DeepResearcher。 看看具体实现思路,很有意义,代码也有开源。 抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。 一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览