今天看啥  ›  专栏  ›  PaperWeekly

从Word2vec到BERT——Transformer

PaperWeekly  · 知乎专栏  · 科研  · 2019-12-06 23:06
Keywords: Seq2Seq, Attention, Self-attention, Multi-Head Attention, Positional encoding如果看完本文你不理解,强烈建议你去Jay Alammar的博客看一下,他的博客主主要是对每个概念做可视化的,看了会茅塞顿开!简直是宝藏!,每篇文章我也会放上他相对应的概念的地址:The Illustrated Transformer1. Seq2Seq + Attention在说明Transformer之前,还是有必要简述一下attention机制,RNN, LSTM, Seq2Seq就不再赘述我们知道Seq2Seq是由一个encoder和一个decoder构成, 编码器负责把源序列编码成向量,解码器是一个语言模型,负责根据编码的信息生成目标序列 ,这个结构的问题在于,编码器需要把整个Source sentence的信息全部编码起来,这是seq2seq架构的瓶颈所在,attention机制就是解决这个瓶颈的一种方法,Attention机制的核心想法就是:在解码器的每一个时间步,都和编码器直接连接,然后只关注source s ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照