视频大模型中视觉上下文表示的scaling law

专知 · 公众号 · · 2024-10-22 12:00

文章预览

© 作者｜都一凡 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 机构｜中国人民大学研究方向｜多模态大模型视频多模态大语言模型（MLLMs）在各种下游任务中展现了卓越的视频语义理解能力。尽管取得了很大进展，但视觉上下文表示对模型效果的影响仍然缺乏系统性的研究。不同于图像模型，视频中所有的帧以及每一帧的视觉token共同构成了视觉上下文窗口，本文探索了视觉上下文表示的设计空间，发现了视觉窗口长度的scaling law，并利用它找到更有效的视频表示策略来提升视频大模型的性能。文章也同步发布在 AI Box 知乎专栏（知乎搜索 AI Box 专栏），欢迎大家在知乎专栏的文章下方评论留言，交流探讨！论文题目：Exploring the Design Space of Visual Context Representation in Video MLLMs ‍ 论文链接： https://arxiv.org/pdf/2410.13694 1 引言视频多模态大语言模型（MLLMs）在各种下 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博