文章预览
点击上方 蓝字 关注我 本文:2900字 阅读12分钟 图片来自DALL.E 伴 随着庞大模型规模和海量数据输入,如何低成本的高效利用LLM也成为了一个新的挑战。 我们知道,推理过程是大大增加使用大型语言模型的金钱和时间成本的事情之一。 对于较长的输入,这个问题会愈加严重。 下面,您可以看到模型性能和推理时间之间的关系。 性能分数与推理吞吐量 每秒生成更多代币的快速模型往往在Open LLM排行榜中得分较低。放大模型大小可以实现更好的性能,但代价是降低推理吞吐量。这使得它们很难在实际应用中部署。 目前业界共识最流行最简单而廉价的方法是:只需要改变模型提示压缩的输入,就能把成本降下来! 幸运的是,这种创新技术已初露峥嵘:Prompt压缩(Prompt Compression)。它旨在压缩输入的语言提示(Prompt),在保留关键信息的同时,大幅降低
………………………………