专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

【NeurIPS2024】MoTE：在视觉语言到视频知识转移中协调泛化与专门化

专知 · 公众号 · AI 科技自媒体 · 2024-10-17 12:00

主要观点总结

文章主要介绍了从大规模基础模型中转移视觉语言知识在视频识别中的应用，以及存在的零样本泛化能力减弱的问题。为此，文章提出了MoTE框架，能够在统一模型中平衡泛化和专门化，学习多个任务视角并适应不同程度的数据拟合。该框架通过权重合并正则化和时间特征调制来保留专家的知识并正则化测试期间时间特征的贡献。文章在多个数据集上取得了最先进的或具有竞争力的结果。

关键观点总结

关键观点1: 视觉语言知识的转移应用于视频识别

文章讨论了大规模基础模型在视频识别中的应用，以及为何需要转移视觉语言知识来提高性能。

关键观点2: MoTE框架的提出

为了解决零样本泛化能力减弱的问题，文章提出了MoTE框架，该框架能够在统一模型中平衡泛化和专门化，并学习多个任务视角。

关键观点3: MoTE框架的正则化技术

为了保留专家的知识并正则化测试期间时间特征的贡献，文章提出了权重合并正则化和时间特征调制两种技术。

关键观点4: 在多个数据集上的先进结果

文章在多个数据集（包括Kinetics-400、Kinetics-600、UCF和HMDB）上通过使用MoTE框架取得了最先进的或具有竞争力的结果。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · 【为何走路更容易迸发灵感？背后是大脑的生理规律】快速阅读：走路不-20260527100207

昨天

宝玉xp · 挺好的建议👍-20260527111743

昨天

量子位 · 触觉具身来了个梦之队：天使轮近亿

昨天

新智元 · 马斯克甩出两张王牌，Grok Build杀入AI编程

昨天

金错刀 · 小镇金融男，吞下王健林300亿

昨天

招商策略研究 · 【招商策略】制造业PMI重回景气区间，9月全球半导体销售额同比增幅扩大——行业景气观察（1106）

1 年前

citexs赛特新思 · 青年基金研究基础重要还是创新性重要？

1 年前

四川应急 · 注意！又有17种情形，纳入重大事故隐患判定标准

1 年前

TopMarketing · 这次，爱奇艺率先在同一场域内实现品效协同

1 年前

河北青年报 · 就在石家庄！4月19日启幕→

1 年前