专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【深度学习】扩散模型部署有新解,直接量化为4bit?韩松团队等提出SVDQuant:16GB笔记本上加速8.7 倍

机器学习初学者  · 公众号  ·  · 2024-12-06 12:00
    

文章预览

作者丨科技猛兽 编辑丨极市平台 导读   在 12B FLUX.1-dev 上,与 BF16 模型相比,它减少了 3.6 倍的 memory。通过消除 CPU offloading,在 16GB 笔记本电脑 4090 GPU 上时,它比 16 bit 模型提供了 8.7 倍的加速,比 NF4 W4A16 基线快 3 倍  太长不看版 量化文生图扩散模型的成功范式。 Diffusion Model 的部署一直都是个很大的问题,因为随着这种模型越做越大就需要更多的 memory 造成更大的时延,而这些对于部署而言都是不利的。 本文给出了一个很激进的量化方案: 把扩散模型的 weight 和 activation 都量化为 4 bit。 在如此激进的量化层面上,weight 和 activation 都高度敏感,传统 LLM 的 post-training quantization 方法,如 smoothing 就不好使了。 因此,本文提出了一种 4-bit 量化算法:SVDQuant。SVDQuant 的核心操作不像 smoothing 那样在 weight 和 activation 之间重新分配异常值 (Outlier),而是使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览