扩散语言模型九倍推理加速！上海交大：KV Cache并非自回归模型的专属技巧

量子位 · 公众号 · AI · 2025-05-27 11:53

文章预览

EPIC Lab团队投稿量子位 | 公众号 QbitAI 首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制： dLLM-Cache 。其核心思想在于，在一个多步去噪过程中，复用相邻时间步上变化较小的特征，仅更新那些变化较大的特征，从而实现了计算量的大幅降低，并保持了原有的生成质量。图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比 dLLM-Cache具有几个重要的亮点： 1. 训练无关，即插即用。 dLLM-Cache完全在推理过程中工作，无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下，带来最高9.1倍的推理速度提升。 2. 通用于主流dLLM架构，如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。 3. 在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博