文章预览
基于Transformer的大型语言模型取得了巨大成功。然而,在推理过程中产生的显著内存和计算成本,使得在资源受限的设备上部署大型模型变得具有挑战性。 在本文中,我们从算法角度调查了大型语言模型的压缩和高效推理方法 。就分类而言,类似于较小的模型, 大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、动态网络 。然而,与较小模型相比,大型语言模型有两个突出的特点:(1) 大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本 。因此,许多针对大型模型的算法,如量化和剪枝,开始探索无需调整的算法。(2) 大型模型强调的是通用性和泛化能力,而不是在单一任务上的性能 。因此,许多算法,如知识蒸馏,关注于如何在压缩后保持其通
………………………………