注册
登录
专栏名称:
PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
知乎回答RSS订阅方法
知乎专栏 RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
研之成理
·
国科大黄辉教授/张昕副教授团队AM/Ange ...
·
4 天前
研之成理
·
中国海洋大学徐涛课题组ACS ...
·
5 天前
研之成理
·
Nat. Commun: ...
·
5 天前
募格学术
·
“双一流”博士生,发Science!
·
6 天前
小张聊科研
·
IF ...
·
1 周前
今天看啥
›
专栏
›
PaperWeekly
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
PaperWeekly
·
公众号
·
科研
· 2024-05-18 20:07
©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络前几天,幻方发布的 DeepSeek-V2 [1] 引起了大家的热烈讨论。首先,最让人哗然的是 1 块钱 100 万 token 的价格,普遍比现有的各种竞品 API 便宜了两个数量级,以至于有人调侃“这个价格哪怕它输出乱码,我也会认为这个乱码是一种艺术”;其次,从模型的技术报告看,如此便宜的价格背后的关键技术之一是它新提出的 MLA(Multi-head Latent Attention),这是对 GQA 的改进,据说能比 GQA 更省更好,也引起了读者的广泛关注。接下来,本文将跟大家一起梳理一下从 MHA、MQA、GQA 到 MLA 的演变历程,并着重介绍一下 MLA 的设计思路。MHAMHA(Multi-Head Attention),也就是多头注意力,是开山之作《Attention is all you need》所提出的一种 Attention 形式,可以说它是当前主流 LLM 的基础工作。在数学上, ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
分享到微博
推荐文章
研之成理
·
国科大黄辉教授/张昕副教授团队AM/Angew. 三连发:在非稠环电子受体聚集态结构调控方面取得系列研究进展
4 天前
研之成理
·
中国海洋大学徐涛课题组ACS Catalysis:不对称催化[1,3]-σ重排和机理研究
5 天前
研之成理
·
Nat. Commun: 一种类精子结构的微型机器人一步成型方法,为药物递送提供新载体
5 天前
募格学术
·
“双一流”博士生,发Science!
6 天前
小张聊科研
·
IF 14+Cell子刊发表肿瘤治疗中药方案:海洋天然小分子产物调节PD-L1,免疫检查点阻断研究还能这样“卷”
1 周前
金融早实习
·
毕马威2023年春季校园招聘
1 年前
我爱计算机视觉
·
2021全球开放数据应用创新大赛开启,300万+奖金等你来拿!
3 年前
混知
·
中国人吃辣图鉴
3 年前
北森人才管理研究院
·
试题奇葩、系统崩溃?这届银行笔试屡上热搜,是因为忽略了这点
3 年前
职场木沐说
·
“我能到你公司学习吗?” “不能!”
4 年前