专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

TensorRT-LLM初探(二)简析了结构,用的更明白

oldpan博客  · 公众号  ·  · 2024-03-19 23:52
 最近看了DataFunTalk的中两篇对trt-llm的讲述(文末传送门),整理了下,正好给组内初次使用trt-llm的童鞋来个快速入门,同时也算是TensorRT-LLM初探第二篇,继续说说TensorRT-LLM。第一篇主要讲了怎么搭环境,以及如何使用TensorRT-LLM跑起来。而本篇主要是简析下trt-llm的内部原理。简单讲讲其内部架构以及一些周边库,旨在可以参考快速上手trt-llm。话不多说,开始吧。基本架构TensorRT-LLM的前身是FasterTransformer[1],现在独立出来为一个git仓库:https://github.com/NVIDIA/TensorRT-LLM官方推荐搭配Triton Inference Server[2]去部署,有对应的backend:https://github.com/triton-inference-server/tensorrtllm_backendTensorRT-LLM库(下文简称trt-llm)主要由这些组成:TensorRT(下文简称trt)FasterTransformer[3]的一些设计和kernelNCCL(scalable inference,TP AllReduce PP send&Recv)cutlass、triton等其他组件整体源码大部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照