看啥推荐读物

专栏名称: CV技术指南

长期更新：深度学习、计算机视觉相关技术的总结；图像处理相关知识；最新论文；经典论文；论文综述、tensorflow和pytorch等内容总结。涉及领域：神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数，干翻 MobileNet/EfficientNe！

CV技术指南 · 公众号 · · 2024-04-12 14:47

前言尽管Vision Transformer（ViT）架构在计算机视觉领域越来越受到重视，并吸引了多媒体社区的大量关注，但其对于平移、缩放和旋转不变性的先验知识（归纳偏置）的不足，需要在大规模数据集上进行预训练。此外，ViT和卷积神经网络（CNNs）中越来越多的层和参数，限制了它们在移动多媒体服务中的应用，这主要是由于边缘设备上的计算资源受限。为了缓解上述挑战，本文提出了一种新型的水平可扩展视觉 Transformer （HSViT）。具体来说，一种新颖的图像级特征嵌入让ViT更好地利用卷积层中固有的归纳偏置。基于此，设计了一种创新性的水平可扩展架构，该架构在减少模型层数和参数的同时，促进了跨多个节点的ViT模型的协同训练和推理。Pytorch训练营，花两个星期彻底掌握代码实现CV各大方向专栏与各个部署框架最全教程整理CV全栈指导班、基础 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博