作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/669303360编辑丨GiantPandaCVDecoder模块是FasterTransformer Decoding model中最核心的处理模块,在FasterTransformer Decoding 源码分析(一)-整体框架介绍一文中详细介绍了Decoder模块在整体中所处的位置,本文试图从流程框架层面对该模块进行源码分析,梳理出主要处理模块,后续再逐步对各个模块实现进行解析。一、整体框架Decoder在整体解码过程中的位置代码地址:link下图中左边是经典的Transformer Decoder结构,右边是FasterTransformer Decoder结构,主要有以下几点区别:将最后的LayerNorm提前到入口,这里并不能加速流程,但是这种顺序在实践中表现得比较好,允许模型更好地调整输入的分布,使其更适合通过self-attention进行处理,最后处理完会在调用外层再做一次LayerNorm。将 SelfAttention和CrossAttention中最后一个 Linear 的 Add Bias,A
………………………………