专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
今天看啥  ›  专栏  ›  新机器视觉

大模型训练,DP/PP/TP/SP/EP到底怎么选?

新机器视觉  · 公众号  · AI  · 2025-04-22 11:20
    

文章预览

offer捷报 金三银四春招季,又有两位训练营同学斩获大模型offer!一个是40k某军实验室offer,另一个是第四范式~恭喜两位同学成功上岸! 随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~ 本文对主流大模型并行训练方式进行了简单介绍,并分析了其通信量以及编排方式。 01 并行策略 目前主流的并行策略可以分为 5 种: DP 数据并行 PP 流水线并行 TP 张量并行 SP 序列并行 EP 专家并行 Efficient training of large language models on distributed infrastructures: a survey 中的 overview 02 前提 03 数据并行 (Data parallelism) 3.1 通信量 3.2 通信模式 Backward:Allreduce 3.3 流量编排 DP 通信次数较少,总通信量相对较低,且可以与反向计算 Overlap (Ze ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览