专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

可降低GPU内存的推理框架面世:韩国团队通过卸载键值缓存节约英伟达GPU内存,实现18.95倍注意力解码加速

DeepTech深科技  · 公众号  · 科技媒体  · 2025-02-28 18:50
    

文章预览

DeepSeek 通过工程手段实现了 GPU 的良好利用,这一做法似乎引起了全球 AI 研究人员的共鸣。 近日,来自韩国科学技术院和 DeepAuto.ai 公司的研究人员,研发出一款名为 InfiniteHiP 的大模型推理框架。 InfiniteHiP 能在推理过程中将键值(KV,Key - Value)缓存置于主机内存,从而能够显著降低 GPU 内存压力。这一框架能在单个 英伟达 L40s 48GB GPU 上处理多达 300 万个 tokens,并且不会永久丢失上下文信息。 利用这一框架,研究人员在 100 万个 tokens 上下文中实现了 18.95 倍的注意力解码加速,并且完全无需额外训练。 同时,这一框架还能高效地利用长上下文,通过模块化分层 tokens 修剪算法,能够动态地消除不相关的上下文 tokens,从而能够提高模型效率。 (来源: arXiv ) 总的来说,InfiniteHiP 让预训练大模型能够实现超长的上下文推理。在不降低质量的前提下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览