看啥推荐读物
专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
今天看啥  ›  专栏  ›  FightingCV

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

FightingCV  · 公众号  ·  · 2023-12-22 09:00
关注“FightingCV”公众号回复“AI”即可获得超100G人工智能的教程点击进入→ FightingCV交流群PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快?在单个 NVIDIA RTX 4090 GPU 上运行 LLM ,PowerInfer 的平均 token 生成速率为 13.20 tokens/s,峰值为 29.08 tokens/s,仅比顶级服务器 A100 GPU 低 18%,可适用于各种 LLM。不仅如此,PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比,在单个 RTX 4090 (24G) 上运行 Falcon (ReLU)-40B-FP16,实现了 11 倍多的加速,还能保持模型的准确性。具体来说,PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。与那些采用多专家系统(MoE)不同的是,PowerInfer 通过利用 LLM 推理中的高度局部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照