今天看啥  ›  专栏  ›  OSC开源社区

深入理解Transformer技术原理

OSC开源社区  · 公众号  · 程序员  · 2024-04-17 16:22
目录一、什么是注意力机制二、Transformer架构设计三、 理解Transformer中的Token    1. 将文本拆分成token        1.1 基于单词的分词器        1.2 基于字符的标记器        1.3 基于子词的标记器    2. 向量、矩阵、张量        2.1 向量(Vector)        2.2 矩阵(Matrix)        2.3 张量(Tensor)    3. 将token转换成向量    4. 将向量转换成嵌入四、理解Transformer的编解码器五、理解Token在编码器中的流转    1. 对Token进行位置编码    2. 自注意力机制        2.1 计算注意力值        2.2 多头注意力机制    3. 残差网络    4. 前匮网络六、理解Token在解码器中的流转    1. Masked多头注意力机制    2. 计算注意力值    3. 线性分类器&Softmax    4. 编解码器的协同工作七、Transformer-XL怎样提升上下文长度八、Transfor ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照