专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
TodayRss-海外RSS稳定源
目录
今天看啥  ›  专栏  ›  专知

【NeurIPS2024】MoTE:在视觉语言到视频知识转移中协调泛化与专门化

专知  · 公众号  · AI 科技自媒体  · 2024-10-17 12:00
    

主要观点总结

文章主要介绍了从大规模基础模型中转移视觉语言知识在视频识别中的应用,以及存在的零样本泛化能力减弱的问题。为此,文章提出了MoTE框架,能够在统一模型中平衡泛化和专门化,学习多个任务视角并适应不同程度的数据拟合。该框架通过权重合并正则化和时间特征调制来保留专家的知识并正则化测试期间时间特征的贡献。文章在多个数据集上取得了最先进的或具有竞争力的结果。

关键观点总结

关键观点1: 视觉语言知识的转移应用于视频识别

文章讨论了大规模基础模型在视频识别中的应用,以及为何需要转移视觉语言知识来提高性能。

关键观点2: MoTE框架的提出

为了解决零样本泛化能力减弱的问题,文章提出了MoTE框架,该框架能够在统一模型中平衡泛化和专门化,并学习多个任务视角。

关键观点3: MoTE框架的正则化技术

为了保留专家的知识并正则化测试期间时间特征的贡献,文章提出了权重合并正则化和时间特征调制两种技术。

关键观点4: 在多个数据集上的先进结果

文章在多个数据集(包括Kinetics-400、Kinetics-600、UCF和HMDB)上通过使用MoTE框架取得了最先进的或具有竞争力的结果。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照