今天看啥  ›  专栏  ›  未尽研究

忙着开AI大会时,这些最重要的论文可能错过了 | AI周

未尽研究  · 公众号  ·  · 2023-07-09 00:29
超长上下文(Long Context)被认为将引领大模型的下一次突破。单次输入的序列长度,也是大模型一直寻求突破的方向。上周出现了一篇论文,介绍如何用Transformer的变种,实现了序列长度达10亿token!他们引入了LongNet,称之为Transformer的一个变种,提出了扩张注意力(dilated attention),随着距离的增加,注意力场逐渐扩大。LONGNET有显著的优势,为建模非常长的序列,例如将整个语料库甚至整个互联网作为一个序列,开辟了新的可能性。还有100万token的论文。一种基于隐性卷积的大型语言模型Hyena,被证明可以在更长的上下文和更低的时间复杂度的同时,达到与注意力相匹配的质量。HyenaDNA是一个在人类参考基因组上进行预训练的基因组基础模型,其上下文长度可达100万个token,并且是单核苷酸级别的 - 这比之前的基于密集注意力的模型高出了最多500倍 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照