专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
今天看啥  ›  专栏  ›  爱可可-爱生活

本文提出了一种完全无监督的强化学习方法RENT,通过将大型语言模-20250530053245

爱可可-爱生活  · 微博  · AI  · 2025-05-30 05:32
    

文章预览

2025-05-30 05:32 本条微博链接 本文提出了一种完全无监督的强化学习方法RENT,通过将大型语言模型对其生成答案的置信度(负熵)作为内在奖励,成功地提升了模型在多个数学和科学推理基准上的性能,其反直觉之处在于发现推理链末端词元的置信度对奖励信号贡献最大,并证明了单纯最大化自信可以改进推理,尽管存在“自信地犯错”的风险。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览