主要观点总结
本文报道了关于去掉Transformer中的归一化层的研究,提出了一种名为Dynamic Tanh(DyT)的元素级运算来模拟归一化层的行为。该研究通过实证研究分析了归一化层的作用,并发现DyT可以在各种设置中稳定训练并获得较高的最终性能。此外,文章还介绍了DyT在不同任务领域中的实验表现,包括视觉监督学习、视觉自监督学习、扩散模型、LLM等。同时,文章还讨论了DyT的参数初始化及在不同模型架构中的表现。
关键观点总结
关键观点1: 研究背景
本文挑战了“归一化层对训练现代神经网络必不可少”这一观念,并提出了一种新的方法DyT来模拟归一化层的作用。
关键观点2: 归一化层的作用
通过实证研究,发现归一化层在优化方面具有实证优势,有助于加速和稳定收敛。此外,它还对输入张量进行非线性变换,类似于经过缩放的tanh函数。
关键观点3: Dynamic Tanh(DyT)的介绍
基于归一化层和扩展版tanh函数的相似性,研究团队提出了Dynamic Tanh(DyT),作为归一化层的直接替代。DyT旨在通过α学习适当的缩放因子并通过有界tanh函数压缩极值来模拟LN的行为。
关键观点4: DyT的实验表现
DyT在不同任务领域中的实验表现优秀,包括视觉监督学习、视觉自监督学习、扩散模型、LLM等。在ImageNet-1K分类任务上,DyT在Base和Large两种规模的Vision Transformer(ViT)和ConvNeXt模型上的表现优于LN。此外,在语音自监督学习和DNA序列建模任务中,DyT也展现了良好的性能。
关键观点5: α的初始化及模型宽度和深度的影响
研究发现,α的初始化对模型的性能有重要影响。较大的模型需要较小的α_0值。同时,模型宽度对确定最优α_0至关重要,而模型深度的影响则微乎其微。
文章预览
机器之心报道 机器之心编辑部 何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文 过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化(batch normalization)的发明,它使视觉识别模型的收敛速度变得更快、更好,并在随后几年中获得迅速发展。从那时起,研究人员针对不同的网络架构或领域提出了许多归一化层的变体。 如今,几乎所有现代网络都在使用归一化层,其中层归一化(Layer Norm,LN)是最受欢迎之一,特别是在占主导地位的 Transformer 架构中。 归一化层的广泛应用很大程度上得益于它们在优化方面的实证优势。除了实现更好的结果之外
………………………………