详解超强 ResNet 变体 NFNet（二）：匹敌 ViT 性能的 JFT-4B 大规模预训练

集智书童 · 公众号 · · 2023-12-11 09:13

作者丨科技猛兽编辑丨极市平台极市导读决定一个视觉骨干模型性能的最重要因素是用于训练的计算预算和训练的数据量。 >>加入极市CV技术交流群，走在计算机视觉的最前沿本文目录1 NFNet 视觉大模型：匹敌 ViT 性能的大规模预训练(来自 Google DeepMind)1.1 背景：视觉社区从中等规模数据集到超大规模数据集的性能评估1.2 JFT-4B 预训练的 NFNet 服从对数-对数缩放定律1.3 ImageNet 微调之后的 NFNet 匹配了 Vision Transformer 的性能太长不看版许多研究人员认为 ConvNet 在小型或中等规模的数据集上表现良好，但是在面对超大规模的数据集时不如 Vision Transformer。在本文中作者希望挑战这个观点，通过评估在 JFT-4B (大型有标注数据集，通常用于训练基础模型) 上预训练的 ConvNet。选取的 ConvNet 模型：NFNet (解读详见如下链接)。NFNet 由于不含 BN 带来的隐式正则化效果， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博