文章预览
offer捷报 金三银四春招季,又有两位训练营同学斩获大模型offer!一个是40k某军实验室offer,另一个是第四范式~恭喜两位同学成功上岸! 随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~ 本文对主流大模型并行训练方式进行了简单介绍,并分析了其通信量以及编排方式。 01 并行策略 目前主流的并行策略可以分为 5 种: DP 数据并行 PP 流水线并行 TP 张量并行 SP 序列并行 EP 专家并行 Efficient training of large language models on distributed infrastructures: a survey 中的 overview 02 前提 03 数据并行 (Data parallelism) 3.1 通信量 3.2 通信模式 Backward:Allreduce 3.3 流量编排 DP 通信次数较少,总通信量相对较低,且可以与反向计算 Overlap (Ze
………………………………