今天看啥  ›  专栏  ›  LLM SPACE

大模型日报(5月22日 学术篇)

LLM SPACE  · 公众号  ·  · 2024-05-22 19:43
    

文章预览

特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 论文 0 1 PyramidInfer: 金字塔KV缓存压缩,用于高吞吐量LLM推断 大语言模型(LLMs)展示了出色的理解能力,但在推断过程中面临GPU内存使用挑战,限制了它们在像聊天机器人这样的实时应用中的可扩展性。为了加速推断过程,我们在GPU内存中存储计算的键和值(KV缓存)。现有方法研究了KV缓存压缩以通过修剪预先计算的KV缓存来减少内存。然而,它们忽视了层间依赖性以及预先计算中的巨大内存消耗。为了探索这些缺陷,我们发现关键和值的数量逐层递减,并可以通过注意力权重的一致性来提取它们。基于这些发现,我们提出了PyramidInfer,一种通过 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览