文章预览
作者 | 周一笑 邮箱 | zhouyixiao@pingwest.com DeepSeek开源周正式拉开帷幕,为AI社区带来了一系列开源代码库,北京时间周一上午九点,DeepSeek公布了开源周的第一个项目:FlashMLA。 FlashMLA是DeepSeek专为英伟达Hopper GPU设计的高效 MLA(Multi-Head Latent Attention)解码内核,用于优化可变长度序列的推理服务,其目标是在H100等Hopper GPU上实现更快的推理速度,且所有代码均经过实际业务场景验证,目前正处于持续发布中。 发布后,FlashMLA迅速成为全球开发者关注的焦点,在GitHub上的Star数已突破5000。 按照官方说法,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s的内存带宽,以及580TFLOPS的计算性能,代表了当前AI计算领域的顶级水准。 #01 推理性能突破 在大语言模型的推理过程中,高效的序列解码对于降低延迟和提高吞吐量至关重要。FlashMLA
………………………………