看啥推荐读物
专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
目录
相关文章推荐
今天看啥  ›  专栏  ›  集智书童

英伟达开源新Backbone涨点方法STL | 让FAN Backbone直接登顶ImageNet-1K等数据集榜单

集智书童  · 公众号  ·  · 2024-01-14 20:28
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群最近的研究表明,视觉 Transformer (ViTs)在out-of-distribution场景下具有很强的鲁棒性。特别是,全注意力网络(FAN)-一种ViT Backbone 网络,已经实现了最先进的鲁棒性。在本文中,作者重新检查了FAN模型,并使用Self-emerging Token Labeling(STL)框架改进了它们的预训练。STL包含一个两阶段的训练框架。具体而言,首先训练一个FAN Labeler (FAN-TL)来生成语义上具有意义的patch Token 。然后,使用 Token 和原始类别标签进行FAN学生模型训练阶段。利用提出的STL框架,基于FAN-L-Hybrid(77.3M参数)的最好的模型在ImageNet-1K和ImageNet-C上分别实现了84.8%的Top-1准确率和42.1%的mCE,为ImageNet-A(46.1%)和ImageNet-R(56.6%)设置了新的最先进状态,同时不使用额外数据,明显优于原始FAN。STL框架在诸如语义分割 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照