专栏名称: AI算法科研paper
每日更新人工智能行业技术干货、论文推荐、动态资讯、职场指南等AI知识。关注AI算法科研paper更深入了解人工智能。
今天看啥  ›  专栏  ›  AI算法科研paper

大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作

AI算法科研paper  · 公众号  ·  · 2023-09-18 18:19
转载自 | 量子位仅作学术分享,不代表本公众号立场,侵权联系删除只需给大模型“加点小零件”,推理速度立刻提升2倍!不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快几小时就能微调完成。这项新研究名叫Medusa(美杜莎),来自普林斯顿、UIUC、CMU和康涅狄格大学,FlashAttention作者Tri Dao也在其中。目前,它已经成功部署到伯克利70亿参数的“骆马”Vicuna中,后续还会支持其他大模型,已经登上GitHub热榜:但其实,在这种方法推出之前,业界并非没有大模型推理加速方法,主流的就是DeepMind推出的投机采样(speculative decoding)。相比这种方法,Medusa有什么不一样的地方?投机采样的2个“bug”要想加速大模型推理,需要先知道究竟是什么“限制”了它的速度。相比计算量的增加,大模型推理速度更容易受到内存带宽的影响(memory ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照