专栏名称: 瓦力算法学研所

我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势，以及如何应用这些技术来解决实际问题，探索每一项技术落地的可行性方案。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

大模型面经—GQA（Grouped Query Attention）和MHA、MQA的区别及代码

瓦力算法学研所 · 公众号 · · 2024-07-07 10:43

文章预览

技术总结专栏作者：喜欢卷卷的瓦力本篇介绍分组查询注意力机制。在大模型技术中，GQA（Grouped Query Attention）是一种注意力机制，它介于MHA（Multi-Head Attention）和MQA（Multi-Query Attention）之间，旨在结合两者的优点，以实现在保持MQA推理速度的同时接近MHA的精度。 MHA是一种基础的注意力机制，它通过将输入分割成多个头（heads）来并行计算注意力，每个头学习输入的不同部分，最终将结果合并，以捕获序列的不同方面信息。 MQA则是一种优化的注意力机制，它通过让所有头共享相同的键（keys）和值（values），减少了参数量和计算量，从而加快了推理速度，但可能会牺牲一些精度。 GQA作为MHA和MQA的折中方案，它将查询头（query heads）分组，每组共享一个键和值，而不是所有头都共享。这样，GQA能够在减少计算量的同时，保持更多的多样性，从而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博