DeepSeek 开源周（一）：FlashMLA 在 H100 上的性能实测

慢慢学 AIGC · 公众号 · · 2025-02-24 10:42

文章预览

点击下方卡片，关注“ 慢慢学AIGC ” 前言 2 月 21 日，DeepSeek 在 X 上预告了未来一周即将开源 5 个 repo，分享他们在 DeepSeek 模型开发过程中积累的一些构建模块。今天（2 月 24 日，周一），FlashMLA 如约而至。接下来我们一探究竟。编译 & 安装 Github：https://github.com/deepseek-ai/FlashMLA 代码结构很简单，一个 Python 文件 flash_mla_interface.py 为接口，具体内容在 csrc 目录下由 C++/CUDA 实现。编译和安装步骤只需要一步： python setup.py install 编译成功后可以看到版本信息为 flash-mla--1.0.0+414a2f3 上述输出会随着社区迭代而发生变化。需要复现本文结果可以保持相同版本。性能评测在 PyTorch 中使用 FlashMLA 比较简单： from flash_mla import get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for i in range (num_layer ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博