看啥推荐读物
专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大型语言模型高效推理综述

专知  · 公众号  ·  · 2024-04-24 14:00
大型语言模型(LLMs)由于在各种任务中的卓越表现而受到广泛关注。然而,LLM推理的大量计算和内存需求给资源受限的部署场景带来了挑战。该领域的努力已经朝着开发旨在提高LLM推理效率的技术方向发展。本文提供了对现有文献关于高效LLM推理的全面综述。我们首先分析了LLM推理效率低下的主要原因,即模型规模大、注意力操作的二次复杂度和自回归解码方法。接着,我们介绍了一个全面的分类法,将当前文献按数据级、模型级和系统级优化进行组织。此外,本文还包括了在关键子领域内代表性方法的比较实验,以提供定量洞见。最后,我们提供了一些知识总结并讨论未来的研究方向。近年来,大型语言模型(LLMs)已经从学术界和工业界获得了大量关注。LLMs领域经历了显著的增长和重大成就。众多开源的LLMs已经出现,包括GPT系列(GPT-1 [1],GPT ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照