文章预览
点击下方 卡片 ,关注“ 慢慢学AIGC ” 前言 2 月 21 日,DeepSeek 在 X 上预告了未来一周即将开源 5 个 repo,分享他们在 DeepSeek 模型开发过程中积累的一些构建模块。 今天(2 月 24 日,周一),FlashMLA 如约而至。 接下来我们一探究竟。 编译 & 安装 Github:https://github.com/deepseek-ai/FlashMLA 代码结构很简单,一个 Python 文件 flash_mla_interface.py 为接口,具体内容在 csrc 目录下由 C++/CUDA 实现。 编译和安装步骤只需要一步: python setup.py install 编译成功后可以看到版本信息为 flash-mla--1.0.0+414a2f3 上述输出会随着社区迭代而发生变化。需要复现本文结果可以保持相同版本。 性能评测 在 PyTorch 中使用 FlashMLA 比较简单: from flash_mla import get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for i in range (num_layer
………………………………