看啥推荐读物
专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大型语言模型的模型压缩与高效推理:综述

专知  · 公众号  ·  · 2024-02-17 14:00
基于Transformer的大型语言模型取得了巨大成功。然而,在推理过程中产生的显著内存和计算成本,使得在资源受限的设备上部署大型模型变得具有挑战性。在本文中,我们从算法角度调查了大型语言模型的压缩和高效推理方法。就分类而言,类似于较小的模型,大型语言模型的压缩和加速算法仍可以分为量化、剪枝、蒸馏、紧凑架构设计、动态网络。然而,与较小模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法在压缩后需要进行微调甚至重新训练模型。大型模型最显著的方面是与模型微调或训练相关的非常高成本。因此,许多针对大型模型的算法,如量化和剪枝,开始探索无需调整的算法。(2)大型模型强调的是通用性和泛化能力,而不是在单一任务上的性能。因此,许多算法,如知识蒸馏,关注于如何在压缩后保持其通用性和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照