高性能 LLM 推理框架的设计与实现

oldpan博客 · 公众号 · · 2024-03-11 09:54

导读本文将分享大语言模型推理相关工作，以及大语言模型性能优化的一些关键点。主要内容包括以下几大部分：1. 大语言模型推理概要介绍2. 大语言模型推理性能优化3. 大语言模型推理的硬件4. Q & A分享嘉宾｜张志商汤科技研发工程师编辑整理｜陈业利内容校对｜李瑶出品社区｜DataFun01大语言模型推理概要介绍与传统的 CNN 模型推理不同，大语言模型的推理通常会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程，prefill 过程会计算用户所有的输入，并生成对应的 KV 缓存，再经历若干个 decoding 过程，每一个 decoding 过程，服务器都会生成一个字符，并将其放入到 KV 缓存当中，之后依次迭代。由于 decoding 过程是逐个字符生成的，每一段答案的生成都需要很长时间，会生成很多字符，所以 decoding 阶 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博