看啥推荐读物

专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

NUS、NTU等联合提出Dysen-VDM，利用LLM协助增强视频扩散模型的时间动态感知能力

PaperWeekly · 公众号 · 科研 · 2024-04-12 18:12

文本到视频（T2V）合成这一研究方向受到越来越热切的关注，其中最近以扩散模型为代表的方法，展现出了非常强大的视频生成能力，比如 1 个月前 OpenAI 发布的 Sora 系统。尽管现有的绝大部分开源的扩散模型能够实现高分辨率的视频生成，即画面高清；但实际上对于视频合成，建模视频中所涉及到的复杂时序动态能力，T2V 关键的重点和难点问题，却没有良好解决。也因此大部分的视频扩散模型存在诸如视频过渡不平滑、粗糙的视频运动和动作发生混乱等问题。为解决该问题，由新加坡国立大学、南洋理工大学联合 Skywork AI 提出利用 LLM 协助增强视频扩散模型的时间动态感知能力，以实现高质量的 T2V 生成。在这项工作中，作者基于 OpenAI GPT（ChatGPT、GPT4）设计了一个动态场景管理器（Dynamic Scene Manager，简称为 Dysen）模块。通过 LLM 强大的视觉理解 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博