专栏名称: 深圳特区报
深圳特区报是深圳市委机关报,是深圳最权威的新闻媒体,是改革开放的窗口!因特动人,因您精彩!
目录
今天看啥  ›  专栏  ›  深圳特区报

华为算力炼出业界一流大模型

深圳特区报  · 公众号  · 深圳  · 2025-05-30 18:51
    

文章预览

近日,华为在MoE模型训练领域再进一步,重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。 训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE 模型的全流程训练。 在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了 EP loss 负载优化方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览