【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

数据派THU · 公众号 · 大数据 · 2024-04-14 12:26

来源：专知本文为论文介绍，建议阅读5分钟我们提出一种在线处理视频的方法，而不是像大多数现有工作那样尝试同时处理更多帧，并在内存库中存储过去的视频信息。随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA，VideoChat）只能处理有限数量的帧来理解短视频。在这项研究中，我们主要关注设计一个高效且有效的模型用于长期视频理解。我们提出一种在线处理视频的方法，而不是像大多数现有工作那样尝试同时处理更多帧，并在内存库中存储过去的视频信息。这使得我们的模型能够参考历史视频内容进行长期分析，而不会超出LLMs的上下文长度限制或GPU内存限制。我们的内存库可以以现成的方式无缝集成到当前的多模态LLMs中。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博