18项任务200万视频编辑对，云天励飞联合多高校打造出大规模编辑数据集

机器之心 · 公众号 · AI · 2025-03-12 09:22

文章预览

目前的视频编辑算法主要分为两种：一种是利用 DDIM-Inversion 完成视频编辑，另一种是利用训练好的编辑模型。然而，前者在视频的一致性和文本对齐方面存在较大缺陷；后者由于缺乏高质量的视频编辑对，难以获得理想的编辑模型。为了解决视频编辑模型缺乏训练数据的问题，本文作者（来自香港中文大学、香港理工大学、清华大学等高校和云天励飞）提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对，囊括了 18 种视频编辑任务。数据集中所有编辑视频都是由经过训练的专家模型生成，其中最关键的部分由作者提出的视频编辑专家模型完成，其余部分则由一些计算机视觉模型标注，例如 Grounded-SAM2 和深度图检测模型等。论文标题：Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists 论文地 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博