作者丨233来源丨https://www.zhihu.com/question/655172528/answer/3491439374编辑丨GiantPandaCV计算量DeepSeek-V2在decode阶段,只需要4K上下文就可以使Attention的计算量(只计SPDA算子,不计其中的Linear层)超过Linear层:NoPE部分qK由于W_K与q而非latent结合,每head是512维内积;(注:q乘W_K.T的计算量归入Linear层)RoPE部分每head是64维内积;Attention Weight每head需要对512维latent加权求和。因此每层需要128×(512+64+512)×4K=557056K=544M次MAC,60层总共需要31.875G MAC。21B激活参数却只需要21G MAC。推理成本分析假设memory bound(但我怀疑已经compute bound,至少局部compute bound)。DeepSeek-V2是60层,而Llama 3 70B是80层,而MLA是GQA(8 group)的9/32,因此context_size是27/128。27/128的context确实可以实现128/27倍的batch_size,但routed expert是6/160,实际均摊带宽的token数应该要乘6/160。另一方面,attention和shared expert又是全量
………………………………