看啥推荐读物
专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

NeurIPS 2020线上分享 | 耶鲁博士庄钧堂:兼顾收敛、泛化和稳定性的新型优化器AdaBelief

机器之心  · 公众号  · AI  · 2020-11-17 12:06
现代神经网络通常利用一阶梯度方法进行训练,这类方法又可以划分为两个不同的方向,分别是加速随机梯度下降(SGD)和自适应学习率方法(如 Adagrad 和 Adam)。两者的运行原理不同,SGD 方法学习使用所有参数的全局学习率,而自适应方法计算每个参数的学习率。运行原理的不同也导致两者在效果方面出现差异。具体而言,自适应方法通过在早期训练阶段收敛较快,但遗憾的是泛化性能太差。所以,如何结合 SGD 和自适应方法的各自优势成为重要的研究课题。例如,Salesforce 研究院高级研究科学家 Nitish Shirish Keskar 等通过从 Adam 切换到 SGD 来提升泛化性能,以及谷歌研究院学者 Liangchen Luo 等利用学习率动态边界的自适应梯度方法。此外,研究人员也提出了各种针对 Adam ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照