今天看啥  ›  专栏  ›  新机器视觉

后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式

新机器视觉  · 公众号  ·  · 2024-03-09 21:08
来源:机器之心仅用于学术分享,若侵权请联系删除一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂,从早期的 ConvNets 到 Vision Transformers,可用模型的种类已大幅增加。同样,训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并不能捕捉到不同架构、训练范式和数据所产生的细微差别。如果仅根据 ImageNet 准确率来判断,具有不同属性的模型可能看起来很相似。当模型开始过度拟合 ImageNet 的特异性并使准确率达到饱和时,这种局限性就会变得更加明显。CLIP 就是个值得一提的例子:尽管 CLIP 的 ImageNet 准确率与 ResNet 相似,但其视觉编码器的稳健性和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照