看啥推荐读物
专栏名称: 谷歌开发者
Google中国官方账号。汇集Android, Chrome, Angular等移动和网络开发技术、Google Play和AdMob等开发者成长、优化和变现平台。
今天看啥  ›  专栏  ›  谷歌开发者

Vision Transformer:用于大规模图像识别的 Transformer

谷歌开发者  · 公众号  · 科技媒体  · 2021-01-12 16:32
文 / Neil Houlsby 研究员 和 Dirk WeissenbornSella Nevo,  高级软件工程师,Google Research自 20 世纪 80 年代,卷积神经网络 (CNN) 就已应用于计算机视觉中,但直到 2012 年 AlexNet 的性能远远超过当时最为先进的图像识别方法时,这一技术才算走到行业前列。实现这一突破要归功于两个因素:ImageNet 等训练集的出现;使用商业 GPU 硬件为训练提供了更强的计算能力。因此,自 2012 年起,CNN 就已成为视觉任务的首选模型。使用 CNN 的好处在于,它们无需手动设计的视觉特征,而是直接从数据“端到端”执行学习任务。但是尽管 CNN架构本身专为图像设计,无需手动提取特征,但其对计算能力要求很高。展望下一代可扩展视觉模型,人们可能会思考这种特定于领域的设计是否有必要,或者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照