专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法

PaperWeekly  · 公众号  · 科研  · 2024-05-16 13:13
©作者 | FudanNLP单位 | 复旦大学NLP实验室基于 Transformer 的大型语言模型(LLM)展示了强大的文本理解能力,颠覆了整个 NLP 领域的应用范式。然而,在长度有限文本上预训练的语言模型却无法像人类一样泛化到任意长度文本,如何解决长度泛化问题成为了 LLM 的一项主要挑战。 目前主流的长度泛化工作认为:Transformer 模型中显式的位置编码(例如旋转位置编码 RoPE)带来了长度泛化问题,并试图 1)提出新型可泛化的位置编码(e.g., Alibi[1], XPOS[2]); 2)二次微调 LLM 到更长的文本上(e.g., LLaMA2Long [3]); 3)以内插、外推等方式修改 RoPE 位置编码(e.g., PI[4], YaRN[5])。这三类工作现阶段都取得了不错的进展,其中一些方法已经成功将 LLM 的长度扩展到 100K 以上 [6]。 然而,位置编码是否是导致长度泛化问题的唯一因素?或者说,如果没有位置编码问题, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照