专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

Decoder-only的LLM为什么需要位置编码?

PaperWeekly  · 公众号  · 科研  · 2024-09-01 23:57

文章预览

©PaperWeekly 原创 · 作者 |  苏剑林 单位 |  科学空间 研究方向 |  NLP、神经网络 众所周知,目前主流的 LLM,都是基于 Causal Attention 的 Decoder-only 模型(对此我们在 《为什么现在的LLM都是Decoder-only的架构?》 也有过相关讨论),而对于 Causal Attention,已经有不少工作表明它不需要额外的位置编码(简称 NoPE)就可以取得非平凡的结果。 然而,事实是主流的 Decoder-only LLM 都还是加上了额外的位置编码,比如 RoPE、ALIBI 等。  那么问题就来了:明明说了不加位置编码也可以,为什么主流的 LLM 反而都加上了呢?不是说“多一事不如少一事”吗?这篇文章我们从三个角度给出笔者的看法:  1. 位置编码对于 Attention 的作用是什么? 2. NoPE 的 Causal Attention 是怎么实现位置编码的?  3. NoPE 实现的位置编码有什么不足? 位置编码 在这一节中,我们先思考第一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览