今天看啥  ›  专栏  ›  王路在隐身

200字抓包大模型

王路在隐身  · 公众号  · 热门自媒体  · 2025-05-17 23:24
    

主要观点总结

本文介绍了一种判断大模型在预训练中是否学过一段文本的方法,并给出了一个具体的例子来展示该方法是如何工作的。文章详细描述了使用困惑度和Loss值来判断模型对文本的熟悉程度。另外,文章还探讨了当前AI在文学创作上表现不佳的可能原因。

关键观点总结

关键观点1: 判断大模型在预训练中是否学过一段文本的方法

可以直接问大模型或者通过给一段文本,观察其困惑度或Loss值来判断。在给出的例子中,通过Idx Token Loss的值来分析模型是否学过特定的文本内容。

关键观点2: 当前AI在文学创作上的表现

当前AI在文学创作上的表现并不理想,可能存在模型对文学作品的复杂性和深度理解不足的问题。此外,模型的训练数据和算法也可能限制了其在文学创作方面的能力。


文章预览

正常标题:《判断大模型在预训练中有没有学过一段文本的简易方法》。 最简单的方法,当然是直接问大模型。那种方法我就不介绍了。只是,经过监督微调的模型,有些它学过的东西它是不会告诉你的。比如某些它看过但是出于安全或者对齐的考虑觉得不适合告诉你的。 还有个更直接的方法,就是给一段文本,直接看它的困惑度,或者 LOSS 。下面我就拿汪曾祺《受戒》里的一段话作为例子。模型预训练时见过《受戒》当然根本不意外(没见过才意外)。我是想说,同样的方法你可以用来测试那些你觉得小众的文本。 我拿这段问过 GPT o4-mini-high  和  Gemini 2.5 Pro。 我说,这是我用 base 模型测的(没有经过微调),你能看出什么、得出什么结论吗?两个货的回答都毫无亮点。我说,从下面的数据中,百分百可以断定,模型在预训练中学过这段文本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览