专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  中国人工智能学会

观点分享丨ann LeCun:ViT慢且效率低,实时图像处理还得看卷积

中国人工智能学会  · 公众号  · AI  · 2024-06-04 17:45
    

主要观点总结

本文围绕 Vision Transformer(ViT)与卷积神经网络(CNN)的争论展开讨论。文章介绍了OpenAI视频大模型Sora带火ViT架构的现状,并提到图灵奖得主Yann LeCun加入讨论。文中详细介绍了Comma.ai的CTOHarald Schäfer展示的最新研究引发的讨论,包括关于ViT和CNN的优劣讨论,以及Yann LeCun和谢赛宁等专家的观点。文章还提到混合架构的出现以及Yann LeCun对特斯拉全自动驾驶使用的技术的猜测。

关键观点总结

关键观点1: ViT与CNN之争

本文主要围绕Vision Transformer(ViT)与卷积神经网络(CNN)的争论展开,介绍了两者之间的优劣讨论以及专家的观点。

关键观点2: Yann LeCun的观点

图灵奖得主Yann LeCun认为ViT虽然受到关注,但在实时处理高分辨率图像和视频任务上,存在速度慢、效率低的问题。他提倡在低级别使用带有步幅或池化的卷积,在高级别使用自注意力循环的架构。

关键观点3: 谢赛宁的观点

谢赛宁认为ViT适合低分辨率图像,但对于高分辨率图像,使用卷积或其他处理方式可能更有效。他提到卷积网络不仅是一种架构,更是一种思维方式。

关键观点4: 混合架构的出现

文中提到混合架构的出现,这种架构结合了ViT和CNN的优点,并得到了Yann LeCun等专家的认可。这种架构可能是未来更强大架构的基础。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照