文章预览
作者:多多少少 原文: https://zhuanlan.zhihu.com/p/19480848641 整理:青稞AI 很久没写博客了, 最近心血来潮也便就写一下博客吧, 最近在LLM infra推理相关的一些工作, 又看到了这几个名词,这次详细了解下了, 这里也便写一下自己的简介。 以下资料参考: 1. Efficient Training on Multiple GPUs [1] 2. Zero Redundancy Optimizer - DeepSpeed [2] 3. Tensor Parallelism [3] 4. Model Memory Utility - a Hugging Face Space by hf-accelerate [4] 5. DataParallel — PyTorch 2.5 documentation [5] 1. 背景介绍 目前大模型的时代已经如火如荼了, 模型越做越大,但是目前主流的训练推理卡确实一直刀来刀去没什么长进, 说的就是你NVIDIA。 由于众所周知的原因, 老黄的卡一直显存都不大, 贴一下主流显存,在消费级,也就是买的最多,“普通人”最能affordable的price, 3090和4090都是24G, 跑一个大一点的LLM推理都得
………………………………