文章预览
来自:ChallengeHub FlashMLA 今天DeepSeek开源周第一天,开放了FlashMLA仓库, 1小时内星标2.7k! FlashMLA 是一个高效的 MLA 解码内核,专为 Hopper GPU 优化,适用于可变长度序列。该项目目前发布了 BF16 和具有 64 块大小分页 kvcache 的功能。在 H800 SXM5 上,使用 CUDA 12.6,内存受限配置下可达 3000 GB/s,计算受限配置下可达 580 TFLOPS。 Github仓库地址:https://github.com/deepseek-ai/FlashMLA 这里提到两个比较关键的功能就是 BF16精度计算以及Paged kvcache缓存技术 好巧不巧,近期DeepSeek 发布了一篇新论文, 提出了一种改进版的注意力机制 NSA,即Native Sparse Attention,可以直译为「原生稀疏注意力」 ;但其实就在同一天,月之暗面也发布了一篇主题类似的论文, 提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」 。注意机制最近这么火爆的背
………………………………