专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?(从推理角度分析)

GiantPandaCV  · 公众号  · 3D  · 2024-05-21 23:25
作者丨233来源丨https://www.zhihu.com/question/655172528/answer/3491439374编辑丨GiantPandaCV计算量DeepSeek-V2在decode阶段,只需要4K上下文就可以使Attention的计算量(只计SPDA算子,不计其中的Linear层)超过Linear层:NoPE部分qK由于W_K与q而非latent结合,每head是512维内积;(注:q乘W_K.T的计算量归入Linear层)RoPE部分每head是64维内积;Attention Weight每head需要对512维latent加权求和。因此每层需要128×(512+64+512)×4K=557056K=544M次MAC,60层总共需要31.875G MAC。21B激活参数却只需要21G MAC。推理成本分析假设memory bound(但我怀疑已经compute bound,至少局部compute bound)。DeepSeek-V2是60层,而Llama 3 70B是80层,而MLA是GQA(8 group)的9/32,因此context_size是27/128。27/128的context确实可以实现128/27倍的batch_size,但routed expert是6/160,实际均摊带宽的token数应该要乘6/160。另一方面,attention和shared expert又是全量 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照