今天看啥  ›  专栏  ›  NLPPaperWeekly

LLMLingua|您有一份prompt压缩20倍的方案请查收

NLPPaperWeekly  · 公众号  ·  · 2024-03-19 09:10
大家好,我是HxShine。今天分享微软公司的一篇文章,Title: LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models。这篇文章介绍了一种名为LLMLingua的粗到细的提示压缩方法,能够在保持语义完整性的同时,将提示prompt压缩20倍,并且基本不损失性能。主要分为三个步骤来完成prompt的有效压缩,同时确保基本不损失性能。预算控制(budget controller): 为各种组件(instructions, demonstrations, and questions)分配不同的压缩比,通过预算控制器在高压缩比率下维护整体语义完整性。迭代压缩算法(token-level iterative compression algorithm): 使用基于token的迭代算法,准确捕捉压缩内容之间的关联性,从而更有效地压缩prompt并保留知识。指令调整(instruction tuning): 通过指令调整实现语言模型间的分布对齐,解决小模型和黑盒大模型之间的分布差异。一、概述 Title: LLML ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照