看啥推荐读物

专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

FasterTransformer Decoding 源码分析(六)-CrossAttention介绍

GiantPandaCV · 公众号 · 3D · 2024-05-14 17:09

作者丨进击的Killua来源丨https://zhuanlan.zhihu.com/p/670739629编辑丨GiantPandaCV本文是FasterTransformer Decoding源码分析的第六篇，笔者试图去分析CrossAttention部分的代码实现和优化。由于CrossAttention和SelfAttention计算流程上类似，所以在实现上FasterTransformer使用了相同的底层Kernel函数，因此会有大量重复的概念和优化点，重复部分本文就不介绍了，所以在阅读本文前务必先浏览进击的Killua：FasterTransformer Decoding 源码分析(四)-SelfAttention实现介绍这篇文章，一些共性的地方会在这篇文章中做统一介绍，本文着重介绍区别点。一、模块介绍如下图所示，CrossAttention模块位于DecoderLayer的第4个模块，输入为经过LayerNorm后的SelfAttention结果和encoder的outputs，经过该模块处理后进行残差连接再输入LayerNorm中。CrossAttention在decoder中的位置CrossAttention模块本质上还是要实现如下几个公 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博