今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

【大型神经网络】显存不够,如何训练大型神经网络?

机器学习算法与自然语言处理  · 公众号  ·  · 2020-03-09 09:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!前阵子微软开源了DeepSpeed训练框架,从测试效果来看有10倍的速度提升,而且对内存进行了各种优化,最大可以训练100B(illion)参数的模型。同时发布了这个框架训练出的17B模型 Turing-NLG,处于目前壕赛事的顶端。训100B的模型就先别想了(狗头),先把110M的BERT-base训好上线吧。本文主要介绍模型训练中速度和内存的优化策略,针对以下几种情况:我明天就要答辩了,今天必须把这十个实验跑完我的模型有些大,好不容易放到一张卡上,训完一亿样本之前我就可以领N+1了我想出了一个绝妙的T6模型,却加载不进12GB的卡里,又拿不到今年的best paper了(以上纯属虚构,如有雷同请赶紧看下文)现实总是残酷的, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照