深度了解自监督学习，就看这篇！详解DINO：视觉 Transformer 的自监督学习

arXiv每日学术速递 · 公众号 · · 2024-01-08 11:35

作者丨科技猛兽@知乎编辑丨极市平台导读自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以往的有监督训练和卷积网络里面都是不具备的。这些特征也是优秀的 k-NN 分类器，ViT-Small 在 ImageNet 上达到了 78.3% 的 top-1 精度。DINO 还研究了自监督训练中的 momentum encoder，multi-crop training 以及在 ViT 中使用小 Patch 的技巧。本文目录1 DINO：视觉 Transformer 的自监督学习(来自 Facebook AI Research)1 DINO 论文解读1.1 背景和动机1.2 DINO 算法介绍1.3 DINO 网络架构1.4 DINO 训练策略1.5 ImageNet 实验结果1.6 消融实验结果太长不看版DINO 是视觉 Transformer 做自监督学习的非常经典的工作。DINO 所要探究的问题是：自监督学习算法是否能够为视觉 Transformer 带来新的特性。本文给出了以下的观察：首先，自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博