讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

密集训练稀疏推理:重新思考混合专家语言模型的训练

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-06 00:33
    

文章预览

24年4月来自MIT、MIT-IBM实验室、Toronto大学和Vector Institute的论文“Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models”。 与密集模型相比,混合专家 (MoE) 语言模型可以将计算成本降低 2-4 倍,而不会牺牲性能,从而使其在计算受限场景中更加高效。但是,MoE 模型通常需要 2-4 倍以上的参数才能实现与密集模型相当的性能,这会导致更大的 GPU 内存需求,并使 MoE 模型在自回归生成等 I/O 受限场景中效率较低。提出的一种用于 MoE 模型的混合密集训练和稀疏推理框架 (DS-MoE),通过在训练期间对所有专家进行密集计算并在推理期间进行稀疏计算来实现计算和参数方面强大的效率。DS-MoE 模型比标准稀疏 MoE 具有更高的参数效率,并且在总参数大小和性能方面与密集模型相当,同时计算成本更低(激活 30-40% 的模型参数)。使用 vLLM 的性能测 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览