一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

从FlashMLA背后原理回顾KV Cache

深度学习自然语言处理  · 公众号  ·  · 2025-02-24 21:13
    

文章预览

来自:ChallengeHub FlashMLA 今天DeepSeek开源周第一天,开放了FlashMLA仓库, 1小时内星标2.7k! FlashMLA 是一个高效的 MLA 解码内核,专为 Hopper GPU 优化,适用于可变长度序列。该项目目前发布了 BF16 和具有 64 块大小分页 kvcache 的功能。在 H800 SXM5 上,使用 CUDA 12.6,内存受限配置下可达 3000 GB/s,计算受限配置下可达 580 TFLOPS。 Github仓库地址:https://github.com/deepseek-ai/FlashMLA 这里提到两个比较关键的功能就是 BF16精度计算以及Paged kvcache缓存技术 好巧不巧,近期DeepSeek 发布了一篇新论文, 提出了一种改进版的注意力机制 NSA,即Native Sparse Attention,可以直译为「原生稀疏注意力」 ;但其实就在同一天,月之暗面也发布了一篇主题类似的论文, 提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」 。注意机制最近这么火爆的背 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览