今天看啥  ›  专栏  ›  机器之心

GPU捉襟见肘还想训练大批量模型?谁说不可以

机器之心  · 公众号  · AI  · 2018-10-17 12:13
选自Medium机器之心编译深度学习模型和数据集的规模增长速度已经让 GPU 算力也开始捉襟见肘,如果你的 GPU 连一个样本都容不下,你要如何训练大批量模型?通过本文介绍的方法,我们可以在训练批量甚至单个训练样本大于 GPU 内存时,在单个或多个 GPU 服务器上训练模型。2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型(如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型)还是馈入 3000 万个元素输入的元学习神经网络(如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型),我都只能在 GPU 上处理很少的训练样本。但在多数情况下,随机梯度下降算法需要很大批量才能得出不错的结果。如 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照