专栏名称: 中国人工智能学会

关注中国人工智能学会官方公共账号，收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

观点分享丨ann LeCun：ViT慢且效率低，实时图像处理还得看卷积

中国人工智能学会 · 公众号 · AI · 2024-06-04 17:45

主要观点总结

本文围绕 Vision Transformer（ViT）与卷积神经网络（CNN）的争论展开讨论。文章介绍了OpenAI视频大模型Sora带火ViT架构的现状，并提到图灵奖得主Yann LeCun加入讨论。文中详细介绍了Comma.ai的CTOHarald Schäfer展示的最新研究引发的讨论，包括关于ViT和CNN的优劣讨论，以及Yann LeCun和谢赛宁等专家的观点。文章还提到混合架构的出现以及Yann LeCun对特斯拉全自动驾驶使用的技术的猜测。

关键观点总结

关键观点1: ViT与CNN之争

本文主要围绕Vision Transformer（ViT）与卷积神经网络（CNN）的争论展开，介绍了两者之间的优劣讨论以及专家的观点。

关键观点2: Yann LeCun的观点

图灵奖得主Yann LeCun认为ViT虽然受到关注，但在实时处理高分辨率图像和视频任务上，存在速度慢、效率低的问题。他提倡在低级别使用带有步幅或池化的卷积，在高级别使用自注意力循环的架构。

关键观点3: 谢赛宁的观点

谢赛宁认为ViT适合低分辨率图像，但对于高分辨率图像，使用卷积或其他处理方式可能更有效。他提到卷积网络不仅是一种架构，更是一种思维方式。

关键观点4: 混合架构的出现

文中提到混合架构的出现，这种架构结合了ViT和CNN的优点，并得到了Yann LeCun等专家的认可。这种架构可能是未来更强大架构的基础。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

赛博禅心 · AI 赌球，一无所有

昨天

爱可可-爱生活 · improve 是一个专为代码库审计而生的 Agent 技能，能-20260614113448

昨天

宝玉xp · 为啥 Codex 还不推出类似 Codex Design 的产品-20260614031520

昨天

量子位 · 华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

2 天前

宝玉xp · 跟写代码很像，先做一个简单的出来，然后不停的迭代，但是不直接写代-20260613025742

2 天前

易贸生物精选 · 180家企业高管齐聚大会现场 | BPD、IDC、GCD三会一展，打通药物开发全流程

1 年前

东方国际集团 · 衣架 | Occasion Line：神秘的她

1 年前

Libertango Official · 【10.28-11.3】Libertango阁楼放映本周片单！这几部这么经典怎么能错过呢！

1 年前

魔都财观 · 上海中产买房加速了

1 年前

阿拉善左旗市场监督管理局 · 强化示范引领筑牢安全防线——阿左旗市场监管局开展学校食堂食品安全观摩活动

1 年前