看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

图解大模型计算加速系列:vLLM源码解析3,块管理器(BlockManager)上篇

GiantPandaCV  · 公众号  · 3D  · 2024-04-30 23:24
大家好,本篇我们进入“有趣的”(😊,反复告诉自己它很有趣,那么它一定能变得有趣起来)且“重要的”(这是真得很重要)的vllm块管理器相关代码解读。vllm块管理器又分成朴素块管理器(UncachedBlockAllocator)和prefix caching型块管理器(CachedBlockAllocator)。本篇我们先讲比较简单的前者,下篇我们来细看更有趣也是更难的后者。前置阅读(建议按顺序阅读,逻辑会更清晰~):vllm原理篇vllm源码解读篇1:整体代码架构vllm源码解读篇2:调度器策略一、前情提要在之前对调度器策略(Scheduler)的讲解中,我们主要说明了以下几点:从vLLM批处理的入口函数开始,介绍了其推理内核LLMEngine的两个重要函数add_request()和step()在LLMEngine开始处理请求前(实例化阶段),它会先做一次模拟实验,来估计gpu上需要预留多少显存给KV Cache block。当LLMEngine开始处理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照