大语言模型真的需要这么多层吗？

CSDN · 公众号 · 科技媒体 · 2023-12-19 09:35

研究表明，移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp )，链接https://baoyu.io/translations/amazon/do-large-language-models-really-need-all-those-layers作者 | Karthik Gopalakrishnan责编 | 夏萌出处 | baoyu.io研究表明，移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。大语言模型（LLMs）已经存在一段时间，但随着 ChatGPT 的出现，今年它们真正进入了公众视野。LLMs 通常会在庞大的数据集上进行预训练，并且最近的版本还通过应用强化学习进行调整，以便更好地遵循指令并整合人类反馈。这些 LLMs 展示出的一项令人着迷的能力是上下文学习，也就是说，模型能够仅凭几个（有时甚至不需要）好的示例，就学会如何执 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博