看啥推荐读物
专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【CVPR2024】MA-LMM: 内存增强的大型多模态模型,用于长期视频理解

数据派THU  · 公众号  · 大数据  · 2024-04-14 12:26
来源:专知本文为论文介绍,建议阅读5分钟我们提出一种在线处理视频的方法,而不是像大多数现有工作那样尝试同时处理更多帧,并在内存库中存储过去的视频信息。随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA,VideoChat)只能处理有限数量的帧来理解短视频。在这项研究中,我们主要关注设计一个高效且有效的模型用于长期视频理解。我们提出一种在线处理视频的方法,而不是像大多数现有工作那样尝试同时处理更多帧,并在内存库中存储过去的视频信息。这使得我们的模型能够参考历史视频内容进行长期分析,而不会超出LLMs的上下文长度限制或GPU内存限制。我们的内存库可以以现成的方式无缝集成到当前的多模态LLMs中。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照