大型语言模型高效推理综述

专知 · 公众号 · · 2024-04-24 14:00

大型语言模型（LLMs）由于在各种任务中的卓越表现而受到广泛关注。然而，LLM推理的大量计算和内存需求给资源受限的部署场景带来了挑战。该领域的努力已经朝着开发旨在提高LLM推理效率的技术方向发展。本文提供了对现有文献关于高效LLM推理的全面综述。我们首先分析了LLM推理效率低下的主要原因，即模型规模大、注意力操作的二次复杂度和自回归解码方法。接着，我们介绍了一个全面的分类法，将当前文献按数据级、模型级和系统级优化进行组织。此外，本文还包括了在关键子领域内代表性方法的比较实验，以提供定量洞见。最后，我们提供了一些知识总结并讨论未来的研究方向。近年来，大型语言模型（LLMs）已经从学术界和工业界获得了大量关注。LLMs领域经历了显著的增长和重大成就。众多开源的LLMs已经出现，包括GPT系列（GPT-1 [1]，GPT ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博