看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

PaperWeekly  · 公众号  · 科研  · 2023-12-21 12:19
©作者 | 上交大IPADS实验室来源 | 量子位原本需要一张 16 万元的 80G A100 干的活,现在只需要一张不到 2 万元的 24G 4090 就够了! 上海交大 IPADS 实验室推出的开源推理框架 PowerInfer,让大模型推理速度加快了 11 倍。而且不用量化,就用 FP16 精度,也能让 40B 模型在个人电脑上运行;如果加入量化,2080 Ti 也能流畅运行 70B 模型。论文标题:PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU论文链接:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf代码链接:https://github.com/SJTU-IPADS/PowerInfer结合大模型的独特特征,通过 CPU 与 GPU 间的混合计算,PowerInfer 能够在显存有限的个人电脑上实现快速推理。相比于 llama.cpp,PowerInfer 实现了高达 11 倍的加速,让 40B 模型也能在个人电脑上一秒能输出十个 token。我们最熟悉的 ChatGPT,一方面有时会因为访问 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照