看啥推荐读物
专栏名称: 谷歌开发者
Google中国官方账号。汇集Android, Chrome, Angular等移动和网络开发技术、Google Play和AdMob等开发者成长、优化和变现平台。
今天看啥  ›  专栏  ›  谷歌开发者

通过 Performer 架构再探注意力机制

谷歌开发者  · 公众号  · 科技媒体  · 2020-11-30 16:48
文 / Krzysztof Choromanski 和 Lucy Colwell,Google Research 研究员Transformer 模型已在多个领域中取得世界前沿成果 (SOTA),包括自然语言、对话、图像甚至是音乐。Transformer 架构的核心组成部分是注意力模块,通过它计算输入序列中所有位置对的相似性得分。然而,随着输入序列的增长,注意力机制的扩展能力却无法与之匹配。这需要计算时间呈平方增长来生成所有相似性得分,以及存储空间的平方增长来构建一个矩阵存储这些得分。图像https://openai.com/blog/image-gpt/音乐https://magenta.tensorflow.org/music-transformer对于需要长距离注意力的应用,我们提出了几种快速且节省空间的替代方法(例如内存缓存技术),但更普遍的方法是依靠稀疏注意力 (Sparse attention)。稀疏注意力从序列而不是所 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照