TensorRT-LLM初探（二）简析了结构，用的更明白

oldpan博客 · 公众号 · · 2024-03-19 23:52

最近看了DataFunTalk的中两篇对trt-llm的讲述（文末传送门），整理了下，正好给组内初次使用trt-llm的童鞋来个快速入门，同时也算是TensorRT-LLM初探第二篇，继续说说TensorRT-LLM。第一篇主要讲了怎么搭环境，以及如何使用TensorRT-LLM跑起来。而本篇主要是简析下trt-llm的内部原理。简单讲讲其内部架构以及一些周边库，旨在可以参考快速上手trt-llm。话不多说，开始吧。基本架构TensorRT-LLM的前身是FasterTransformer[1]，现在独立出来为一个git仓库：https://github.com/NVIDIA/TensorRT-LLM官方推荐搭配Triton Inference Server[2]去部署，有对应的backend：https://github.com/triton-inference-server/tensorrtllm_backendTensorRT-LLM库（下文简称trt-llm）主要由这些组成：TensorRT（下文简称trt）FasterTransformer[3]的一些设计和kernelNCCL（scalable inference，TP AllReduce PP send&Recv）cutlass、triton等其他组件整体源码大部 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

北京厚朴中医 · 今晚19:00直播 | 骨科术后不适？手法调整来帮忙

昨天

北京厚朴中医 · 厚朴中医——十年树木，百年育人

5 天前

北京厚朴中医 · 厚朴中医上海总部诊所端午放假通知

5 天前

北京厚朴中医 · 大铁锤和荆轲有什么关系？

6 天前

北京厚朴中医 · 【端午节早上9:00】北京厚朴中医诊所十年庆现场直播

5 天前

简书 · 最近一次让你开怀大笑的人是谁？

2 年前

易简财经 · “重庆李嘉诚”把英国人惊呆两次！19亿买套房，再花19亿装修，到底什么来头？

3 年前

同道大叔 · 2020年，请对水瓶座好一点！

4 年前

量化历史研究 · 【获奖公告】2017第三届“南都量化历史研究最佳论文奖”揭晓

6 年前

微路况 · 为啥外国人关窗做，中国人却爱开窗做？

7 年前