DeepSeek开源周Day 1: FlashMLA——大家省，才是真的省

硅星GenAI · 公众号 · · 2025-02-24 20:18

文章预览

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com DeepSeek开源周正式拉开帷幕，为AI社区带来了一系列开源代码库，北京时间周一上午九点，DeepSeek公布了开源周的第一个项目：FlashMLA。 FlashMLA是DeepSeek专为英伟达Hopper GPU设计的高效 MLA（Multi-Head Latent Attention）解码内核，用于优化可变长度序列的推理服务，其目标是在H100等Hopper GPU上实现更快的推理速度，且所有代码均经过实际业务场景验证，目前正处于持续发布中。发布后，FlashMLA迅速成为全球开发者关注的焦点，在GitHub上的Star数已突破5000。按照官方说法，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s的内存带宽，以及580TFLOPS的计算性能，代表了当前AI计算领域的顶级水准。 #01 推理性能突破在大语言模型的推理过程中，高效的序列解码对于降低延迟和提高吞吐量至关重要。FlashMLA ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博