专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!

机器之心  · 公众号  · AI  · 2025-05-23 12:17
    

主要观点总结

华为团队针对大语言模型(LLM)推理过程中的效率问题,发布了三大重要技术,旨在提高大模型推理的“速度”与“能效”。这三项技术包括AMLA算子、融合算子和SMTurbo,分别解决了算力利用率、多卡协同和内存访问延迟等问题。这些技术为AI大模型的执行计算提供了原子级工具,并实现了能效、速度和内存访问等方面的全面突破。

关键观点总结

关键观点1: AMLA算子通过数学优化提高算力利用率

AMLA算子通过加代乘的高性能昇腾 MLA 算子,用「数学魔法」重构浮点运算,让昇腾芯片的算力利用率突破70%。

关键观点2: 融合算子技术实现计算、通信和存储的协同优化

融合算子技术将多个算子合而为一,通过指令级流水编排实现计算耗时相互掩盖,并消除了冗余数据搬运,实现了更高的性能。

关键观点3: SMTurbo技术降低内存访问延迟

SMTurbo技术通过打造内存访问的「高速公路」,实现了跨384卡的超低延迟。该技术提升了昇腾芯片每线程的访存吞吐,降低了同步开销。


文章预览

机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度融合软硬件的系统性方案! 他们基于昇腾算力,正式发布 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览