以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

机器之心 · 公众号 · AI · 2025-05-23 12:17

主要观点总结

华为团队针对大语言模型（LLM）推理过程中的效率问题，发布了三大重要技术，旨在提高大模型推理的“速度”与“能效”。这三项技术包括AMLA算子、融合算子和SMTurbo，分别解决了算力利用率、多卡协同和内存访问延迟等问题。这些技术为AI大模型的执行计算提供了原子级工具，并实现了能效、速度和内存访问等方面的全面突破。

关键观点总结

关键观点1: AMLA算子通过数学优化提高算力利用率

AMLA算子通过加代乘的高性能昇腾 MLA 算子，用「数学魔法」重构浮点运算，让昇腾芯片的算力利用率突破70%。

关键观点2: 融合算子技术实现计算、通信和存储的协同优化

融合算子技术将多个算子合而为一，通过指令级流水编排实现计算耗时相互掩盖，并消除了冗余数据搬运，实现了更高的性能。

关键观点3: SMTurbo技术降低内存访问延迟

SMTurbo技术通过打造内存访问的「高速公路」，实现了跨384卡的超低延迟。该技术提升了昇腾芯片每线程的访存吞吐，降低了同步开销。

文章预览

机器之心发布机器之心编辑部现如今，随着参数规模的指数级增长，大语言模型（LLM）的能力边界不断被打破，AI 的智力正在经历快速跃迁。但随之而来的是，大模型在落地过程中面临着一系列推理层面的难题，比如推不动、算不起、部署慢，导致推理成本高昂，性能冗余浪费严重。因此，大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题，如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战，更要在承接大模型推理压力的同时，在能效、延迟、成本等多方面实现可控与优化。在这一背景下，华为团队和昨天一样（参考：帮大模型提速 80%，华为拿出昇腾推理杀手锏 FlashComm，三招搞定通算瓶颈），用数学补物理，给出了一份深度融合软硬件的系统性方案！他们基于昇腾算力，正式发布 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博