看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
今天看啥  ›  专栏  ›  GiantPandaCV

聊聊序列并行Sequence parallelism

GiantPandaCV  · 公众号  · 3D  · 2024-03-07 22:03
作者丨无恶不作来源丨https://zhuanlan.zhihu.com/p/653067104编辑丨GiantPandaCV随着大语言模型的发展,大模型的相关技术日益细化,在生成式 AI、蛋白质结构预测等多个领域开花结果。由此产生的技术痛点也越发明显,特别是在蛋白质预测、多模态基础模型、语音图像处理模型等需要前后文推理的模型,对长序列训练有明显的需求。与此同时,现有的分布式训练技术,主要分为:数据并行、张量并行、流水线并行等在数据维度正交切分的分布式训练技术。如下图0所示,分别对应对于 batch size,hidden_size 维度进行切分。对于长序列模型训练,由于 transformer 类模型 self-attention 部分序列长度和显存消耗呈现平方关系,上述三种均不能提供较为高效、稳定的训练支持。而对于长序列模型采用序列并行可以很好的解决显存溢出等问题,由此大模型训练技术在序列并行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照