看啥推荐读物

专栏名称: 谷歌开发者

Google中国官方账号。汇集Android, Chrome, Angular等移动和网络开发技术、Google Play和AdMob等开发者成长、优化和变现平台。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Vision Transformer：用于大规模图像识别的 Transformer

谷歌开发者 · 公众号 · 科技媒体 · 2021-01-12 16:32

文 / Neil Houlsby 研究员和 Dirk WeissenbornSella Nevo, 高级软件工程师，Google Research自 20 世纪 80 年代，卷积神经网络 (CNN) 就已应用于计算机视觉中，但直到 2012 年 AlexNet 的性能远远超过当时最为先进的图像识别方法时，这一技术才算走到行业前列。实现这一突破要归功于两个因素：ImageNet 等训练集的出现；使用商业 GPU 硬件为训练提供了更强的计算能力。因此，自 2012 年起，CNN 就已成为视觉任务的首选模型。使用 CNN 的好处在于，它们无需手动设计的视觉特征，而是直接从数据“端到端”执行学习任务。但是尽管 CNN架构本身专为图像设计，无需手动提取特征，但其对计算能力要求很高。展望下一代可扩展视觉模型，人们可能会思考这种特定于领域的设计是否有必要，或者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博