看啥推荐读物
专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理

AINLP  · 公众号  ·  · 2023-11-23 18:41
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐量。本系列将针对TensorRT-LLM推理进行讲解。本文为该系列第二篇,将基于Bloom进行模型量化及推理。另外,我撰写的大模型相关的博客及配套代码均整理放置在Github:llm-action,有需要的朋友自取。环境搭建基础配置:CUDA:12.2镜像:nvcr.io/nvidia/pytorch:23.10-py3由于服务器无法访问外网,只能预先准备好镜像,安装包、编译源码等,接下来准备安装 TensorRT-LLM,推荐使用 Docker 构建和运行 TensorRT-LLM,整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的步骤。首先,进入Docker容器。docker run -dt --name tensorrt_llm_lgd \--restart=always \--gpus all \--netw ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照