大模型训练，DP/PP/TP/SP/EP到底怎么选？

新机器视觉 · 公众号 · AI · 2025-04-22 11:20

文章预览

offer捷报金三银四春招季，又有两位训练营同学斩获大模型offer！一个是40k某军实验室offer，另一个是第四范式～恭喜两位同学成功上岸！随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~ 本文对主流大模型并行训练方式进行了简单介绍，并分析了其通信量以及编排方式。 01 并行策略目前主流的并行策略可以分为 5 种： DP 数据并行 PP 流水线并行 TP 张量并行 SP 序列并行 EP 专家并行 Efficient training of large language models on distributed infrastructures: a survey 中的 overview 02 前提 03 数据并行（Data parallelism） 3.1 通信量 3.2 通信模式 Backward：Allreduce 3.3 流量编排 DP 通信次数较少，总通信量相对较低，且可以与反向计算 Overlap (Ze ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博