专栏名称: 华尔街见闻
追踪全球财经热点,精选影响您财富的资讯,投资理财必备神器!
目录
今天看啥  ›  专栏  ›  华尔街见闻

华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一

华尔街见闻  · 公众号  · 财经  · 2025-05-29 08:57
    

文章预览

当前,混合专家模型( Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开销换取更大能力成为可能。然而,传统MoE普遍存在专家激活频次高度不均衡现象,当专家并行部署于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型( Mixture of Grouped Experts, MoGE) ,通过在专家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K昇腾大规模集群 进行高效训练。 同时,基于 MoGE架构构建的 盘古 Pro MoE大模型(72B总参数、16B激活参数) 在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率(321 tokens/s和1528 tokens/s)。 在模型能力方面,盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1具 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览