看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
今天看啥  ›  专栏  ›  GiantPandaCV

拆解一下字节的烧钱工作,MegaScale!

GiantPandaCV  · 公众号  · 3D  · 2024-03-19 12:00
作者丨蛋糕店的蜡烛来源丨https://zhuanlan.zhihu.com/p/684712727编辑丨GiantPandaCVMegaScale是字节跳动使用10000块卡试错出来的一套大规模模型训练系统,它包括了模型分布式,通信,容灾以及监控等工具。用这个系统,不论啥错误10分钟就可以找到,15分钟就可以实现上一个检查点重启。原文链接:https://arxiv.org/abs/2402.15627https://https://arxiv.org/abs/2402.156277本文是观后感,方便构建大模型系统时自己查阅~(一点一点看完,真的是一个庞大的系统工程,需要对每个模块进行抽象和精密设计才会有这个系统。有点强!不过用一句话可以概括就是:“能并行的地方基本都并行了~ 容灾日志等也都比较完善,之后可以一键训练了~”)摘要提出一种超大模型的训练系统,踩了很多大模型中出现了坑,MFU值达到了55.2%,与Megatron相比性能提高了1.34倍。这里说明一下MFU模型算力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照