专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

量子位  · 公众号  · AI  · 2025-05-27 11:53
    

文章预览

EPIC Lab团队 投稿 量子位 | 公众号 QbitAI 首个用于加速 扩散式大语言模型 (diffusion-based Large Language Models, 简称 dLLMs)推理过程的 免训练 方法。 上海交通大学EPIC Lab团队提出了一种 无需训练、即插即用 的高效推理缓存机制: dLLM-Cache 。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。 图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比 dLLM-Cache具有几个重要的亮点: 1. 训练无关,即插即用。 dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。 2.  通用于主流dLLM架构 ,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。 3. 在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览