看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

FasterTransformer Decoding 源码分析(二)-Decoder框架介绍

GiantPandaCV  · 公众号  · 3D  · 2024-04-29 08:08
作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/669303360编辑丨GiantPandaCVDecoder模块是FasterTransformer Decoding model中最核心的处理模块,在FasterTransformer Decoding 源码分析(一)-整体框架介绍一文中详细介绍了Decoder模块在整体中所处的位置,本文试图从流程框架层面对该模块进行源码分析,梳理出主要处理模块,后续再逐步对各个模块实现进行解析。一、整体框架Decoder在整体解码过程中的位置代码地址:link下图中左边是经典的Transformer Decoder结构,右边是FasterTransformer Decoder结构,主要有以下几点区别:将最后的LayerNorm提前到入口,这里并不能加速流程,但是这种顺序在实践中表现得比较好,允许模型更好地调整输入的分布,使其更适合通过self-attention进行处理,最后处理完会在调用外层再做一次LayerNorm。将 SelfAttention和CrossAttention中最后一个 Linear 的 Add Bias,A ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照