专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

漫谈 KV Cache 优化方法，深度理解 StreamingLLM

GiantPandaCV · 公众号 · 3D · 2023-12-02 23:07

作者丨紫气东来来源丨https://zhuanlan.zhihu.com/p/659770503编辑丨GiantPandaCV在 Transformer 的 Encoder-base 的模型（如 BERT系列）中，推理和训练过程保持了高度的统一性（差异仅仅在于是否存在反向过程）。而在 Decoder-base 的生成式模型（如 GPT系列）中，推理和训练存在相当大的差异性，主要体现在推理过程具有以下3点特征：自回归两阶段（第一阶段输入 prompt，第二阶段输入上一个生成的token）KV cache以上三点实际上也是相辅相成、不可分割的，其中自回归的生成模式是根本原因，两阶段是外在的体现形式，KV cache 是优化手段。下面将通过梳理整个推理过程，来理解 KV cache 的作用及优化方法。一、KV cache 的由来与基本矛盾第一阶段（prompt 输入）：KV cache 作用过程第二阶段（token by token）：KV cache的显存占用分析batch sizes+nKV cache(GB)KV cache/weight44096810.231640963240.936 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博