如何理解attention中的Q,K,V？

小白学视觉 · 公众号 · · 2024-06-15 15:00

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达来源 | 知乎问答地址 | https://www.zhihu.com/question/298810062 本文仅作学术分享，若侵权请联系后台删文处理 01 回答一：作者-不是大叔我们直接用torch 实现一个SelfAttention 来说一说： 1.首先定义三个线性变换矩阵，query, key, value： class BertSelfAttention(nn.Module): self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768，输出768 注意，这里的query, key, value只是一种操作(线性变换)的名称，实际的Q/K/V是它们三个的输出 2. 假设三种操作的输入都是同一个矩阵（暂且先别管为什么输入是同一个矩阵），这里暂且定为长 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

罗辑思维 · 孤独，可能是未来的经济风口

昨天

罗辑思维 · 一个人真正的聪明是什么？

2 天前

阑夕 · 除了知乎，很难有平台能像手术刀一样，去精准解剖公共议题。这次知乎-20250503123029

3 天前

纯银V · 今天离开仙本那回国，请各位坐以待笔者手书一万字仙本那最强攻略。 -20250503113411

3 天前

刘润 · 新零售，就是更高效率的零售

3 天前

渗透之C君 · 80年代任天堂最热卖掌机一台机子只能玩一个游戏？

10 月前

一凡帝诺维奇 · 新一轮猪周期观察（六十四）近期热点

5 月前

金昌市场监管 · 龙年（农历甲辰年）腊八饮食消费提示

4 月前