从Word2vec到BERT——Transformer

PaperWeekly · 知乎专栏 · 科研 · 2019-12-06 23:06

Keywords: Seq2Seq, Attention, Self-attention, Multi-Head Attention, Positional encoding如果看完本文你不理解，强烈建议你去Jay Alammar的博客看一下，他的博客主主要是对每个概念做可视化的，看了会茅塞顿开！简直是宝藏！，每篇文章我也会放上他相对应的概念的地址：The Illustrated Transformer1. Seq2Seq + Attention在说明Transformer之前，还是有必要简述一下attention机制，RNN, LSTM, Seq2Seq就不再赘述我们知道Seq2Seq是由一个encoder和一个decoder构成，编码器负责把源序列编码成向量，解码器是一个语言模型，负责根据编码的信息生成目标序列，这个结构的问题在于，编码器需要把整个Source sentence的信息全部编码起来，这是seq2seq架构的瓶颈所在，attention机制就是解决这个瓶颈的一种方法，Attention机制的核心想法就是：在解码器的每一个时间步，都和编码器直接连接，然后只关注source s ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博