专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

漫谈 KV Cache 优化方法,深度理解 StreamingLLM

GiantPandaCV  · 公众号  · 3D  · 2023-12-02 23:07
作者丨紫气东来来源丨https://zhuanlan.zhihu.com/p/659770503编辑丨GiantPandaCV在 Transformer 的 Encoder-base 的模型(如 BERT系列)中,推理和训练过程保持了高度的统一性(差异仅仅在于是否存在反向过程)。而在 Decoder-base 的生成式模型(如 GPT系列)中,推理和训练存在相当大的差异性,主要体现在推理过程具有以下3点特征:自回归两阶段(第一阶段输入 prompt,第二阶段输入上一个生成的token)KV cache以上三点实际上也是相辅相成、不可分割的,其中自回归的生成模式是根本原因,两阶段是外在的体现形式,KV cache 是优化手段。下面将通过梳理整个推理过程,来理解 KV cache 的作用及优化方法。一、KV cache 的由来与基本矛盾第一阶段(prompt 输入):KV cache 作用过程第二阶段(token by token):KV cache的显存占用分析batch sizes+nKV cache(GB)KV cache/weight44096810.231640963240.936 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照