专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？（从推理角度分析）

GiantPandaCV · 公众号 · 3D · 2024-05-21 23:25

作者丨233来源丨https://www.zhihu.com/question/655172528/answer/3491439374编辑丨GiantPandaCV计算量DeepSeek-V2在decode阶段，只需要4K上下文就可以使Attention的计算量（只计SPDA算子，不计其中的Linear层）超过Linear层：NoPE部分qK由于W_K与q而非latent结合，每head是512维内积；（注：q乘W_K.T的计算量归入Linear层）RoPE部分每head是64维内积；Attention Weight每head需要对512维latent加权求和。因此每层需要128×(512+64+512)×4K=557056K=544M次MAC，60层总共需要31.875G MAC。21B激活参数却只需要21G MAC。推理成本分析假设memory bound（但我怀疑已经compute bound，至少局部compute bound）。DeepSeek-V2是60层，而Llama 3 70B是80层，而MLA是GQA(8 group)的9/32，因此context_size是27/128。27/128的context确实可以实现128/27倍的batch_size，但routed expert是6/160，实际均摊带宽的token数应该要乘6/160。另一方面，attention和shared expert又是全量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博