看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaCV  ·  ​OverlapMamba ...·  5 天前  
今天看啥  ›  专栏  ›  GiantPandaCV

FasterTransformer Decoding 源码分析(六)-CrossAttention介绍

GiantPandaCV  · 公众号  · 3D  · 2024-05-14 17:09
作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/670739629编辑丨GiantPandaCV本文是FasterTransformer Decoding源码分析的第六篇,笔者试图去分析CrossAttention部分的代码实现和优化。由于CrossAttention和SelfAttention计算流程上类似,所以在实现上FasterTransformer使用了相同的底层Kernel函数,因此会有大量重复的概念和优化点,重复部分本文就不介绍了,所以在阅读本文前务必先浏览进击的Killua:FasterTransformer Decoding 源码分析(四)-SelfAttention实现介绍这篇文章,一些共性的地方会在这篇文章中做统一介绍,本文着重介绍区别点。一、模块介绍如下图所示,CrossAttention模块位于DecoderLayer的第4个模块,输入为经过LayerNorm后的SelfAttention结果和encoder的outputs,经过该模块处理后进行残差连接再输入LayerNorm中。CrossAttention在decoder中的位置CrossAttention模块本质上还是要实现如下几个公 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照