专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

图解Vllm V1系列3：KV Cache初始化

GiantPandaLLM · 公众号 · 3D · 2025-05-08 23:42

文章预览

提前祝大家五一快乐！节前我们就来学习vllm v1中一个不怎么复杂，但又比较重要的操作：KV Cache的初始化。在Vllm V1系列2中，我们以MultiprocExecutor为例（这种类型的Executor适用于单机多卡且不使用ray的场景），详细介绍了Executor->Workers架构，如下图所示：简单回顾几个重要信息： Executor广播数据到各个workers上，各个workers处理数据，并将结果返回给Executor。数据在这里是一个广泛的概念，它可以被抽象理解成 (method, data) 的形式。其中，data是待处理的数据本身，method表示你期望各个worker调用什么样方法来处理这份数据。所以广泛上说，这里的数据并不单指要被送去做推理的数据，理论上当你想要所有的workers共同执行某个方法，并且将执行后的结果收集到Executor上时，你都可以通过该操作来完成。例如我们本文要讨论的在各个workers上做kv cache的初始 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博