专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

最轻最快 ViT ，让你知道 Transformer 可以轻量化到什么程度？

AI算法与图像处理 · 公众号 · · 2024-08-01 22:20

文章预览

在本文中，作者探讨了一种策略，该策略使用专家混合（Mixture-of-Experts, MoE）来简化而非增强视觉 Transformer 。MoE层中的每个专家都是一个SwiGLU前馈网络，不采用复杂的注意力或卷积机制。逐深度缩放被应用于逐步减少隐藏层的大小，并且分阶段增加专家的数量。使用了分组 Query 注意力。作者研究了在小数据集上进行预训练和不进行预训练的所提方法，并探讨了在这种规模下迁移学习是否有效。作者发现，即使参数量仅有0.67M，该架构也具有竞争力。 1 Introduction 在计算机视觉的实际应用中，例如边缘智能，小型且性能高效的模型仍然被优先考虑以克服计算挑战[1]。视觉 Transformer （ViTs）[2]取得了显著成果，但当模型大小和数据集较小时，其性能会大幅下降[3]。因此，有研究开始探究在中等规模数据集上表现良好的轻量级视觉 Transformer 。几乎所有这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博