LLMLingua｜您有一份prompt压缩20倍的方案请查收

NLPPaperWeekly · 公众号 · · 2024-03-19 09:10

大家好，我是HxShine。今天分享微软公司的一篇文章，Title: LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models。这篇文章介绍了一种名为LLMLingua的粗到细的提示压缩方法，能够在保持语义完整性的同时，将提示prompt压缩20倍，并且基本不损失性能。主要分为三个步骤来完成prompt的有效压缩，同时确保基本不损失性能。预算控制(budget controller)：为各种组件（instructions, demonstrations, and questions）分配不同的压缩比，通过预算控制器在高压缩比率下维护整体语义完整性。迭代压缩算法(token-level iterative compression algorithm)：使用基于token的迭代算法，准确捕捉压缩内容之间的关联性，从而更有效地压缩prompt并保留知识。指令调整(instruction tuning)：通过指令调整实现语言模型间的分布对齐，解决小模型和黑盒大模型之间的分布差异。一、概述 Title: LLML ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博