专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键

新智元  · 公众号  · AI  · 2025-02-01 06:00
    

文章预览

   新智元报道   编辑:KingHZ 乔杨 【新智元导读】 Ai2研究科学家Nathan Lambert总结语言推理现状,揭开OpenAI o1训练中强化学习的秘密。 关注NLP领域的人们,一定好奇「语言模型能做什么?」「什么是o1?」「为什么思维链有效?」 在NeurIPS的Latent Space非官方Industry Track上,Ai2研究科学家Nathan Lambert发表相关演讲,直接回答语言模型能否推理,以及o1和强化微调 (RFT) API给大家的启发。 演讲内容亮点摘要: 2025年,推理语言模型(Reasoning Language Models,RLMs)将取代后训练;强化学习训练不是后训练。 我们正在看到一些新的语言模型推理形式,它们看起来不像人类的推理方式。 当o1推理时,本质上就是不断地输出token,而token流则相当于某种中间状态。 o1本质上是大规模的预训练强化学习,而且规模极大。 我们正在探索模型中应用思维链的边界。 强化学习 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览