忙着开AI大会时，这些最重要的论文可能错过了 | AI周

未尽研究 · 公众号 · · 2023-07-09 00:29

超长上下文（Long Context）被认为将引领大模型的下一次突破。单次输入的序列长度，也是大模型一直寻求突破的方向。上周出现了一篇论文，介绍如何用Transformer的变种，实现了序列长度达10亿token！他们引入了LongNet，称之为Transformer的一个变种，提出了扩张注意力（dilated attention），随着距离的增加，注意力场逐渐扩大。LONGNET有显著的优势，为建模非常长的序列，例如将整个语料库甚至整个互联网作为一个序列，开辟了新的可能性。还有100万token的论文。一种基于隐性卷积的大型语言模型Hyena，被证明可以在更长的上下文和更低的时间复杂度的同时，达到与注意力相匹配的质量。HyenaDNA是一个在人类参考基因组上进行预训练的基因组基础模型，其上下文长度可达100万个token，并且是单核苷酸级别的 - 这比之前的基于密集注意力的模型高出了最多500倍 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博