专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

UC伯克利新作颠覆认知:LLM靠「自信爆表」学会推理?无需外部奖励超进化

新智元  · 公众号  · AI  · 2025-05-31 16:01
    

主要观点总结

新智元报道,UC伯克利华人团队发现,大型语言模型(LLM)可以不依赖外部奖励,仅通过“自信爆棚”学会推理。新提出的强化学习方法INTUITOR,使用模型自身的置信度作为内在奖励,无需外部监督。INTUITOR在数学和代码生成任务中表现出强大的性能,并在多个基准测试中取得与GRPO相当或更好的结果。此外,INTUITOR还展现出快速初步学习、跨任务泛化和长推理的涌现能力。研究团队还探讨了自我确定性的重要性,并通过实验验证了在线自置信机制的有效性和稳定性。

关键观点总结

关键观点1: LLM靠自信心学会复杂推理

UC伯克利华人团队发现,大型语言模型可以在不依赖外部奖励的情况下,仅通过高自信心学会复杂推理。他们提出了一种新的强化学习方法INTUITOR,该方法使用模型自身的置信度作为内在奖励。

关键观点2: INTUITOR性能强大

INTUITOR在数学和代码生成任务中表现出强大的性能。在多个基准测试中,INTUITOR取得与GRPO相当或更好的结果。此外,INTUITOR还展现出快速初步学习、跨任务泛化和长推理的涌现能力。

关键观点3: 自我确定性的重要性

研究团队强调了自我确定性在强化学习中的重要性。自我确定性是衡量模型对每个token的预测信心的重要指标,可以有效区分高质量和有缺陷的回答。

关键观点4: 在线自置信机制的有效性和稳定性

研究团队通过实验验证了在线自置信机制的有效性和稳定性。在线自置信机制可以防止奖励被滥用,确保模型在大规模数据集上保持稳健的训练。


文章预览

   新智元报道   编辑:Aeneas 犀牛 【新智元导读】 不靠外部奖励,LLM纯靠「自信爆棚」,就能学会推理了?UC伯克利的华人团队发现,LLM居然跟人一样!靠自信来训练AI后,数学、编程性能提升惊人。 就在刚刚,UC伯克利CS博士后Xuandong Zhao,分享出来自己「今年参与的最鼓舞人心的工作」。 他和同事们发现,在没有外部奖励的情况下,LLM竟然只靠「自信爆棚」,就学会了复杂推理? 论文地址:https://arxiv.org/pdf/2505.19590 LLM靠自信心,竟能学会复杂推理 LLM不靠外部奖励,就能自己学会复杂推理,这个结论实在很出乎意料。 团队之所以能做出这个结果,是源于两个关键的观察。 在考试中,人们往往对自己有信心的问题,回答得更准确。这种「信心≈正确性」的模型,对LLM是否也适用呢? 在测试时推理中,长CoT或并行扩展技术(如多数投票)很常见。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览