注册登录

看啥推荐读物

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

sven_shi · 是国发办2015年的96号文。简单说就是中央 ...· 昨天

sven_shi · 其实就是上海所谓的五大新城房地产市场明显撑不 ...· 4 天前

酷玩实验室 · 美剧辐射：表面废土朋克，实则解构白左！· 6 天前

sven_shi · 这是我以前一个蛮有趣的工作。 ...· 6 天前

sven_shi · 这篇可以重新看下。房地产市场中的假消息 ...· 1 周前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

清华、智谱AI团队：Loss才是涌现的关键，而非模型参数

机器学习算法与自然语言处理 · 公众号 · · 2024-04-24 14:00

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | GLM大模型大语言模型中的涌现能力（Emergent Ability）研究指出，伴随着模型参数的增大会出现能力涌现。但过去的观察却发现：1）小模型也可以在涌现出的能力上有较高的表现；2）用于衡量这些能力的指标存在非连续性。为了更深刻地理解这个问题，我们训练了30多个不同模型参数和数据规模的语言模型，并评估了他们在 12 个英文和中文数据集上的表现。我们观察到，涌现现象与 pre-training loss 有比较密切的关系。基于这些观察，我们认为应当从 Pre-training Loss 的角度重新定义“涌现能力”：只有当 Pre-t ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

sven_shi · 是国发办2015年的96号文。简单说就是中央文件和基层宣传不一样-20240506195854

昨天

sven_shi · 其实就是上海所谓的五大新城房地产市场明显撑不住了。购买力，是手里-20240503160549

4 天前

酷玩实验室 · 美剧辐射：表面废土朋克，实则解构白左！

6 天前

sven_shi · 这是我以前一个蛮有趣的工作。医疗改革（一）：从医院并购说起 -20240501185951

6 天前

sven_shi · 这篇可以重新看下。房地产市场中的假消息 -20240430234019

1 周前

CPHI制药在线 · 诉说体系管理中一言难尽的低级错误

2 月前

法商之家 · 合同通则司法解释明确：预先放弃违约金调整权利的约定无效

5 月前

北京亦庄 · “一对一”盯重点！北京经开区大排查大整治严抓细管

10 月前

南都周刊 · HR招人称帮下药撩女同事，网易回应；深圳提高落户门槛；深圳住建局：新房分批加推不能涨价| 小南早报

2 年前

FBIF食品饮料创新 · 2.5亿儿童，每年消费近6万亿，儿童零食如何“吸金”？

4 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号