NeurIPS 2020线上分享 | 耶鲁博士庄钧堂：兼顾收敛、泛化和稳定性的新型优化器AdaBelief

机器之心 · 公众号 · AI · 2020-11-17 12:06

现代神经网络通常利用一阶梯度方法进行训练，这类方法又可以划分为两个不同的方向，分别是加速随机梯度下降（SGD）和自适应学习率方法（如 Adagrad 和 Adam）。两者的运行原理不同，SGD 方法学习使用所有参数的全局学习率，而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。具体而言，自适应方法通过在早期训练阶段收敛较快，但遗憾的是泛化性能太差。所以，如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如，Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能，以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。此外，研究人员也提出了各种针对 Adam ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博