专栏名称: 硅星人Pro
硅(Si)是创造未来的基础,欢迎来到这个星球。
今天看啥  ›  专栏  ›  硅星人Pro

大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解

硅星人Pro  · 公众号  · 科技媒体  · 2025-01-31 09:13
    

文章预览

文章转载于量子位(QbitAI) 思维链(CoT)为什么能够提升大模型的表现?大模型又为什么会出现幻觉? 北大课题组的研究人员,发现了一个分析问题的新视角,将语言数据集和GPT模型展开为 蒙特卡洛语言树 。 具体来说,数据集和模型分别被展开成了 Data-Tree 和 GPT-Tree 。 结果,他们发现,现有的模型 拟合训练数据的本质是在寻求一种更有效的数据树近似方法 (即 )。 进一步地,研究人员认为,大模型中的推理过程, 更可能是概率模式匹配,而不是形式推理 。 1    将数据和模型拆解为蒙特卡洛树 在预训练过程中,大模型通常学习的是如何预测下一个token(也就是将每个token的似然进行最大化),从而对大规模数据进行无损压缩。 其中, 是优化上述似然得到的模型参数。 作者发现, 任何语言数据集 都可以用蒙特卡洛语言树 (简称“Data-Tree” ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览