华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

华尔街见闻 · 公众号 · 财经 · 2025-05-29 08:57

文章预览

当前，混合专家模型（ Mixture of Experts, MoE）在大型语言模型中的兴起，使得以较小的计算开销换取更大能力成为可能。然而，传统MoE普遍存在专家激活频次高度不均衡现象，当专家并行部署于不同硬件设备时，易引发系统效率瓶颈。为此，华为盘古团队提出分组混合专家模型（ Mixture of Grouped Experts, MoGE），通过在专家选择阶段引入分组机制，可确保跨设备的计算负载均衡，成功在 4K昇腾大规模集群进行高效训练。同时，基于 MoGE架构构建的盘古 Pro MoE大模型（72B总参数、16B激活参数）在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率（321 tokens/s和1528 tokens/s）。在模型能力方面，盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成绩，实现了综合能力的领先。具体来说，和其他动辄千亿以上的大模型（如 DeepSeek-R1具 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博