文章预览
技术总结专栏 作者:喜欢卷卷的瓦力 本篇介绍分组查询注意力机制。 在大模型技术中,GQA(Grouped Query Attention)是一种注意力机制,它介于MHA(Multi-Head Attention)和MQA(Multi-Query Attention)之间,旨在结合两者的优点, 以实现在保持MQA推理速度的同时接近MHA的精度 。 MHA是一种基础的注意力机制,它通过将输入分割成多个头(heads)来并行计算注意力,每个头学习输入的不同部分,最终将结果合并,以捕获序列的不同方面信息 。 MQA则是一种优化的注意力机制,它通过让所有头共享相同的键(keys)和值(values),减少了参数量和计算量,从而加快了推理速度,但可能会牺牲一些精度 。 GQA作为MHA和MQA的折中方案, 它将查询头(query heads)分组,每组共享一个键和值,而不是所有头都共享 。这样,GQA能够在减少计算量的同时,保持更多的多样性,从而
………………………………