今天看啥  ›  专栏  ›  机器学习研究组订阅

复旦邱锡鹏组最新综述:A Survey of Transformers!

机器学习研究组订阅  · 公众号  · AI  · 2021-06-13 18:12
作者丨TniL@知乎来源丨https://zhuanlan.zhihu.com/p/379057424转眼Transformer模型被提出了4年了。依靠弱归纳偏置、易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等领域的潜能也在逐渐被挖掘。尽管Transformer已经被证明有很好的通用性,但它也存在一些明显的问题,例如:1、核心模块自注意力对输入序列长度有平方级别的复杂度,这使得Transformer对长序列应用不友好。例如一个简单的32x32图像展开就会包括1024个输入元素,一个长文档文本序列可能有成千上万个字,因此有大量现有工作提出了轻量化的注意力变体(例如稀疏注意力),或者采用“分而治之”的思路(例如引入recurrence);2、与卷积网络和循环网络不同,Transformer结构几乎没有什么归纳偏置。这个性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照