最近看了DataFunTalk的中两篇对trt-llm的讲述(文末传送门),整理了下,正好给组内初次使用trt-llm的童鞋来个快速入门,同时也算是TensorRT-LLM初探第二篇,继续说说TensorRT-LLM。第一篇主要讲了怎么搭环境,以及如何使用TensorRT-LLM跑起来。而本篇主要是简析下trt-llm的内部原理。简单讲讲其内部架构以及一些周边库,旨在可以参考快速上手trt-llm。话不多说,开始吧。基本架构TensorRT-LLM的前身是FasterTransformer[1],现在独立出来为一个git仓库:https://github.com/NVIDIA/TensorRT-LLM官方推荐搭配Triton Inference Server[2]去部署,有对应的backend:https://github.com/triton-inference-server/tensorrtllm_backendTensorRT-LLM库(下文简称trt-llm)主要由这些组成:TensorRT(下文简称trt)FasterTransformer[3]的一些设计和kernelNCCL(scalable inference,TP AllReduce PP send&Recv)cutlass、triton等其他组件整体源码大部
………………………………