【大型神经网络】显存不够，如何训练大型神经网络？

机器学习算法与自然语言处理 · 公众号 · · 2020-03-09 09:00

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！前阵子微软开源了DeepSpeed训练框架，从测试效果来看有10倍的速度提升，而且对内存进行了各种优化，最大可以训练100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG，处于目前壕赛事的顶端。训100B的模型就先别想了（狗头），先把110M的BERT-base训好上线吧。本文主要介绍模型训练中速度和内存的优化策略，针对以下几种情况：我明天就要答辩了，今天必须把这十个实验跑完我的模型有些大，好不容易放到一张卡上，训完一亿样本之前我就可以领N+1了我想出了一个绝妙的T6模型，却加载不进12GB的卡里，又拿不到今年的best paper了（以上纯属虚构，如有雷同请赶紧看下文）现实总是残酷的， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博