看啥推荐读物

专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

图解大模型计算加速系列：vLLM源码解析3，块管理器（BlockManager）上篇

GiantPandaCV · 公众号 · 3D · 2024-04-30 23:24

大家好，本篇我们进入“有趣的”（😊，反复告诉自己它很有趣，那么它一定能变得有趣起来）且“重要的”（这是真得很重要）的vllm块管理器相关代码解读。vllm块管理器又分成朴素块管理器（UncachedBlockAllocator）和prefix caching型块管理器（CachedBlockAllocator）。本篇我们先讲比较简单的前者，下篇我们来细看更有趣也是更难的后者。前置阅读（建议按顺序阅读，逻辑会更清晰～）：vllm原理篇vllm源码解读篇1：整体代码架构vllm源码解读篇2：调度器策略一、前情提要在之前对调度器策略（Scheduler）的讲解中，我们主要说明了以下几点：从vLLM批处理的入口函数开始，介绍了其推理内核LLMEngine的两个重要函数add_request()和step()在LLMEngine开始处理请求前（实例化阶段），它会先做一次模拟实验，来估计gpu上需要预留多少显存给KV Cache block。当LLMEngine开始处理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博