看啥推荐读物
专栏名称: CSDN
CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。
今天看啥  ›  专栏  ›  CSDN

大语言模型真的需要这么多层吗?

CSDN  · 公众号  · 科技媒体  · 2023-12-19 09:35
研究表明,移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp ),链 接https://baoyu.io/translations/amazon/do-large-language-models-really-need-all-those-layers作者 | Karthik Gopalakrishnan责编 | 夏萌出处 | baoyu.io研究表明,移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。大语言模型(LLMs)已经存在一段时间,但随着 ChatGPT 的出现,今年它们真正进入了公众视野。LLMs 通常会在庞大的数据集上进行预训练,并且最近的版本还通过应用强化学习进行调整,以便更好地遵循指令并整合人类反馈。这些 LLMs 展示出的一项令人着迷的能力是上下文学习,也就是说,模型能够仅凭几个(有时甚至不需要)好的示例,就学会如何执 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照