看啥推荐读物
专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!

CV技术指南  · 公众号  ·  · 2024-04-12 14:47
前言 尽管Vision Transformer(ViT)架构在计算机视觉领域越来越受到重视,并吸引了多媒体社区的大量关注,但其对于平移、缩放和旋转不变性的先验知识(归纳偏置)的不足,需要在大规模数据集上进行预训练。此外,ViT和卷积神经网络(CNNs)中越来越多的层和参数,限制了它们在移动多媒体服务中的应用,这主要是由于边缘设备上的计算资源受限。为了缓解上述挑战,本文提出了一种新型的水平可扩展视觉 Transformer (HSViT)。具体来说,一种新颖的图像级特征嵌入让ViT更好地利用卷积层中固有的归纳偏置。基于此,设计了一种创新性的水平可扩展架构,该架构在减少模型层数和参数的同时,促进了跨多个节点的ViT模型的协同训练和推理。Pytorch训练营,花两个星期彻底掌握代码实现CV各大方向专栏与各个部署框架最全教程整理CV全栈指导班、基础 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照