作者丨紫气东来来源丨https://zhuanlan.zhihu.com/p/659770503编辑丨GiantPandaCV在 Transformer 的 Encoder-base 的模型(如 BERT系列)中,推理和训练过程保持了高度的统一性(差异仅仅在于是否存在反向过程)。而在 Decoder-base 的生成式模型(如 GPT系列)中,推理和训练存在相当大的差异性,主要体现在推理过程具有以下3点特征:自回归两阶段(第一阶段输入 prompt,第二阶段输入上一个生成的token)KV cache以上三点实际上也是相辅相成、不可分割的,其中自回归的生成模式是根本原因,两阶段是外在的体现形式,KV cache 是优化手段。下面将通过梳理整个推理过程,来理解 KV cache 的作用及优化方法。一、KV cache 的由来与基本矛盾第一阶段(prompt 输入):KV cache 作用过程第二阶段(token by token):KV cache的显存占用分析batch sizes+nKV cache(GB)KV cache/weight44096810.231640963240.936
………………………………