看啥推荐读物
专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

高性能 LLM 推理框架的设计与实现

oldpan博客  · 公众号  ·  · 2024-03-11 09:54
导读 本文将分享大语言模型推理相关工作,以及大语言模型性能优化的一些关键点。主要内容包括以下几大部分:1. 大语言模型推理概要介绍2. 大语言模型推理性能优化3. 大语言模型推理的硬件4. Q & A分享嘉宾|张志 商汤科技 研发工程师 编辑整理|陈业利内容校对|李瑶出品社区|DataFun01大语言模型推理概要介绍与传统的 CNN 模型推理不同,大语言模型的推理通常会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程,prefill 过程会计算用户所有的输入,并生成对应的 KV 缓存,再经历若干个 decoding 过程,每一个 decoding 过程,服务器都会生成一个字符,并将其放入到 KV 缓存当中,之后依次迭代。由于 decoding 过程是逐个字符生成的,每一段答案的生成都需要很长时间,会生成很多字符,所以 decoding 阶 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照