ICCV 2023 | 轻量级视觉网络新主干

小白学视觉 · 公众号 · · 2023-10-21 10:05

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达1. 背景近年来，基于 Transformer、Large-kernel CNN 和 MLP 三种视觉主干网络在广泛的 CV 任务中取得了显著的成功，这要归功于它们在全局范围内的高效信息融合能力。现有的三大主流神经网络，即 Transformer、CNN 和 MLP，分别通过各自的方式实现全局范围的 Token 融合。其中，Transformer 网络中的自注意力机制将 Query-Key pairs 的相关性作为 Token 融合的权重。CNN 通过扩大 kernel 尺寸实现与 transformer 相近的性能。MLP 通过在所有令牌之间的全连接实现另一种强大的范式。所有这些方法都是有效的，但计算复杂度高 (O (N^2))，难以在存储和计算能力有限的设备上部署，限制了很多模型的应用范围。2. AFF Token Mixer: 轻量、全局、自适应为了解决计算昂贵的问题，研究人员构建了一种名为 Adaptive Fou ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博