英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单

集智书童 · 公众号 · · 2024-01-14 20:28

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群最近的研究表明，视觉 Transformer （ViTs）在out-of-distribution场景下具有很强的鲁棒性。特别是，全注意力网络（FAN）-一种ViT Backbone 网络，已经实现了最先进的鲁棒性。在本文中，作者重新检查了FAN模型，并使用Self-emerging Token Labeling（STL）框架改进了它们的预训练。STL包含一个两阶段的训练框架。具体而言，首先训练一个FAN Labeler （FAN-TL）来生成语义上具有意义的patch Token 。然后，使用 Token 和原始类别标签进行FAN学生模型训练阶段。利用提出的STL框架，基于FAN-L-Hybrid（77.3M参数）的最好的模型在ImageNet-1K和ImageNet-C上分别实现了84.8%的Top-1准确率和42.1%的mCE，为ImageNet-A（46.1%）和ImageNet-R（56.6%）设置了新的最先进状态，同时不使用额外数据，明显优于原始FAN。STL框架在诸如语义分割 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博