专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

可降低GPU内存的推理框架面世：韩国团队通过卸载键值缓存节约英伟达GPU内存，实现18.95倍注意力解码加速

DeepTech深科技 · 公众号 · 科技媒体 · 2025-02-28 18:50

文章预览

DeepSeek 通过工程手段实现了 GPU 的良好利用，这一做法似乎引起了全球 AI 研究人员的共鸣。近日，来自韩国科学技术院和 DeepAuto.ai 公司的研究人员，研发出一款名为 InfiniteHiP 的大模型推理框架。 InfiniteHiP 能在推理过程中将键值（KV，Key - Value）缓存置于主机内存，从而能够显著降低 GPU 内存压力。这一框架能在单个英伟达 L40s 48GB GPU 上处理多达 300 万个 tokens，并且不会永久丢失上下文信息。利用这一框架，研究人员在 100 万个 tokens 上下文中实现了 18.95 倍的注意力解码加速，并且完全无需额外训练。同时，这一框架还能高效地利用长上下文，通过模块化分层 tokens 修剪算法，能够动态地消除不相关的上下文 tokens，从而能够提高模型效率。（来源： arXiv ）总的来说，InfiniteHiP 让预训练大模型能够实现超长的上下文推理。在不降低质量的前提下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博