专栏名称: 慢慢学 AIGC
关注 AIGC,LLM,AI infra 等方向最新资讯,欢迎高质量技术类文章投稿,商务合作可联系 Mistake113
目录
相关文章推荐
今天看啥  ›  专栏  ›  慢慢学 AIGC

DeepSeek 开源周(一):FlashMLA 在 H100 上的性能实测

慢慢学 AIGC  · 公众号  ·  · 2025-02-24 10:42
    

文章预览

点击下方 卡片 ,关注“ 慢慢学AIGC ” 前言 2 月 21 日,DeepSeek 在 X 上预告了未来一周即将开源 5 个 repo,分享他们在 DeepSeek 模型开发过程中积累的一些构建模块。 今天(2 月 24 日,周一),FlashMLA 如约而至。 接下来我们一探究竟。 编译 & 安装 Github:https://github.com/deepseek-ai/FlashMLA 代码结构很简单,一个 Python 文件 flash_mla_interface.py 为接口,具体内容在 csrc 目录下由 C++/CUDA 实现。 编译和安装步骤只需要一步: python setup.py install 编译成功后可以看到版本信息为  flash-mla--1.0.0+414a2f3 上述输出会随着社区迭代而发生变化。需要复现本文结果可以保持相同版本。 性能评测 在 PyTorch 中使用 FlashMLA 比较简单: from  flash_mla  import  get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for  i  in   range (num_layer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览