今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

清华、智谱AI团队:Loss才是涌现的关键,而非模型参数

机器学习算法与自然语言处理  · 公众号  ·  · 2024-04-24 14:00
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | GLM大模型大语言模型中的涌现能力(Emergent Ability)研究指出,伴随着模型参数的增大会出现能力涌现。但过去的观察却发现:1)小模型也可以在涌现出的能力上有较高的表现;2)用于衡量这些能力的指标存在非连续性。为了更深刻地理解这个问题,我们训练了30多个不同模型参数和数据规模的语言模型,并评估了他们在 12 个英文和中文数据集上的表现。我们观察到,涌现现象与 pre-training loss 有比较密切的关系。基于这些观察,我们认为应当从 Pre-training Loss 的角度重新定义“涌现能力”:只有当 Pre-t ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照