专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
今天看啥  ›  专栏  ›  专知

视频大模型中视觉上下文表示的scaling law

专知  · 公众号  ·  · 2024-10-22 12:00
    

文章预览

©  作者|都一凡 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 机构|中国人民大学 研究方向| 多模态大模型 视频多模态大语言模型(MLLMs)在各种下游任务中展现了卓越的视频语义理解能力。尽管取得了很大进展,但视觉上下文表示对模型效果的影响仍然缺乏系统性的研究。不同于图像模型,视频中所有的帧以及每一帧的视觉token共同构成了视觉上下文窗口,本文探索了视觉上下文表示的设计空间,发现了视觉窗口长度的scaling law,并利用它找到更有效的视频表示策略来提升视频大模型的性能。 文章也同步发布在  AI   Box  知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨! 论文题目:Exploring the Design Space of Visual Context Representation in Video MLLMs ‍ 论文链接: https://arxiv.org/pdf/2410.13694 1 引言 视频多模态大语言模型(MLLMs)在各种下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览