看啥推荐读物

专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍

PaperWeekly · 公众号 · 科研 · 2023-12-21 12:19

©作者 | 上交大IPADS实验室来源 | 量子位原本需要一张 16 万元的 80G A100 干的活，现在只需要一张不到 2 万元的 24G 4090 就够了！上海交大 IPADS 实验室推出的开源推理框架 PowerInfer，让大模型推理速度加快了 11 倍。而且不用量化，就用 FP16 精度，也能让 40B 模型在个人电脑上运行；如果加入量化，2080 Ti 也能流畅运行 70B 模型。论文标题：PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU论文链接：https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf代码链接：https://github.com/SJTU-IPADS/PowerInfer结合大模型的独特特征，通过 CPU 与 GPU 间的混合计算，PowerInfer 能够在显存有限的个人电脑上实现快速推理。相比于 llama.cpp，PowerInfer 实现了高达 11 倍的加速，让 40B 模型也能在个人电脑上一秒能输出十个 token。我们最熟悉的 ChatGPT，一方面有时会因为访问 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博