关注公众号,发现CV技术之美本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/672650395。本 blog 是我组的 NeurIPS2023 论文On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective延伸开来的关于经典算法Weight Decay的讨论。这不是一篇 NeurIPS 论文的中文翻译,而更多的是科普 Blog 和这个工作背后的完成脉络。Weight Decay 是一个整个 AI 圈人人都用,却几乎无人多想的算法。即便在这个大模型时代,它还是那么的有用,却又那么的朴实无华。即便是在机器学习理论圈,研究过Weight Decay机制的人也是少数派。在下正是其中之一。前世今生:三种Weight Decay先说说 Weight Decay 的起源。其实现在大家常说的Weight Decay至少有三种不同的形式。只是由于Weight Decay这个名词的滥用,大家都在不同的场合称Weight Decay。第一种“Weight Decay”,也就是当前PyTorch/Te
………………………………