看啥推荐读物
专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

NeurIPS2023 | Weight Decay 的前世今生和隐藏缺陷

我爱计算机视觉  · 公众号  ·  · 2024-02-05 13:26
关注公众号,发现CV技术之美本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/672650395。本 blog 是我组的 NeurIPS2023 论文On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective延伸开来的关于经典算法Weight Decay的讨论。这不是一篇 NeurIPS 论文的中文翻译,而更多的是科普 Blog 和这个工作背后的完成脉络。Weight Decay 是一个整个 AI 圈人人都用,却几乎无人多想的算法。即便在这个大模型时代,它还是那么的有用,却又那么的朴实无华。即便是在机器学习理论圈,研究过Weight Decay机制的人也是少数派。在下正是其中之一。前世今生:三种Weight Decay先说说 Weight Decay 的起源。其实现在大家常说的Weight Decay至少有三种不同的形式。只是由于Weight Decay这个名词的滥用,大家都在不同的场合称Weight Decay。第一种“Weight Decay”,也就是当前PyTorch/Te ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照