专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大型语言模型的模型压缩与高效推理:综述

专知  · 公众号  ·  · 2024-02-17 14:00

文章预览

基于Transformer的大型语言模型取得了巨大成功。然而,在推理过程中产生的显著内存和计算成本,使得在资源受限的设备上部署大型模型变得具有挑战性。 在本文中,我们从算法角度调查了大型语言模型的压缩和高效推理方法 。就分类而言,类似于较小的模型, 大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、动态网络 。然而,与较小模型相比,大型语言模型有两个突出的特点:(1) 大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本 。因此,许多针对大型模型的算法,如量化和剪枝,开始探索无需调整的算法。(2) 大型模型强调的是通用性和泛化能力,而不是在单一任务上的性能 。因此,许多算法,如知识蒸馏,关注于如何在压缩后保持其通 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览