看啥推荐读物
专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

CVPR 2024 | 从1秒到2小时,Meta联合UNC提出超长视频字幕生成模型ReCap

将门创投  · 公众号  · 科技创业  · 2024-04-17 23:06
现有的视频到文本模型(也称为视频字幕生成模型)大多只能处理几秒钟的短视频,并且生成的文本描述仅仅包含了一些底层的视觉概念,例如视频中的对象、场景和简单的动作等等。这远远无法满足AIGC时代的需求,现实世界中的视频通常持续几分钟或几小时,并且具有跨越不同时间粒度的复杂层次结构。本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的论文,本文作者团队来自UNC和MetaAI。本文提出了一种名为Video ReCap的递归视频字幕生成模型,Video ReCap可以处理任意长度的视频输入(时间跨度从1秒到2小时)。作者设计了课程学习(curriculum learning)训练策略来对视频的层次结构进行学习,首先从描述人物原子动作的clip-level字幕开始,然后关注segment-level描述,最后综合生成长视频的描述。此外,本文引入了一个大规模的长视频描述数据集Ego4D-HCa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照