今天看啥  ›  专栏  ›  小白学视觉

从源码学习Transformer!

小白学视觉  · 公众号  ·  · 2021-07-27 10:12
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达本文转自|机器学习算法工程师Transformer总体结构       近几年NLP领域有了突飞猛进的发展,预训练模型功不可没。当前利用预训练模型(pretrain models)在下游任务中进行fine-tune,已经成为了大部分NLP任务的固定范式。Transformer摒弃了RNN的序列结构,完全采用attention和全连接,严格来说不属于预训练模型。但它却是当前几乎所有pretrain models的基本结构,为pretrain models打下了坚实的基础,并逐步发展出了transformer-XL,reformer等优化架构。本文结合论文和源码,对transformer基本结构,进行详细分析。Transformer是谷歌在2017年6月提出,发表在NIPS2017上。论文地址Attention Is All You Needarxiv.org分析的代码为Harvardn ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照