ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

机器之心 · 公众号 · AI · 2025-05-18 12:25

主要观点总结

介绍了一种名为TokenSwift的推理加速框架，该框架旨在解决在生成超长文本时面临的计算成本、长时间等待、巨大内存负担和重复乏味输出的问题。TokenSwift提出了一套可插拔、无损、高效的生成加速策略，专为100K Token级别的长文本推理而设计，在保持原始模型输出一致性的前提下，加速比达到3倍以上。

关键观点总结

关键观点1: TokenSwift的背景和重要性

随着具备「超级上下文窗口」能力的大模型的发展，生成超长文本的需求越来越大。然而，生成这些文本背后隐藏着令人咋舌的计算成本，严重制约了这些模型的真正潜力。面对这一挑战，BIGAI NLCo团队提出了TokenSwift，一项全新的推理加速框架。

关键观点2: TokenSwift的主要技术特点

TokenSwift通过多Token并行草拟、n-gram启发式补全、树结构验证机制等技术手段，实现了超长文本的高效生成。此外，还通过动态KV管理、重复惩罚等机制，解决了KV缓存膨胀和语义重复堆叠的问题。

关键观点3: TokenSwift的实验评估

在多个主流模型上进行了大规模实验，序列长度涵盖从20K到100K，TokenSwift表现均极其亮眼。加速比普遍在3倍以上，生成质量与原模型一致，Distinct-n指标显著优于原始AR路径。

关键观点4: TokenSwift的部署和应用

TokenSwift不是一个另起炉灶的新模型，而是一种可直接嵌入现有主流模型的通用加速策略，具备极强的兼容性与部署便利性。它为大模型推理、代码生成、Agent计划编排等长文本场景提供了坚实的技术支撑。

文章预览

在当前大模型推理愈发复杂的时代，如何快速、高效地产生超长文本，成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备「超级上下文窗口」能力的大模型持续刷新业界记录，百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而，生成这些超长文本的背后，却隐藏着令人咋舌的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出，严重制约了这些模型的真正潜力。面对这一挑战，BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift ，该工作已成功被 ICML 2025 正式接收！在这项研究中提出了一套可插拔、无损、高效的生成加速策略，专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下，加速比达到 3 倍以上，极大提升了推理效率。论文标题：TokenSwift: Lo ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博