来源: 跳动的数据Lumiere 一种文本转视频扩散模型,旨在合成具有逼真、多样和连贯运动的视频,这是视频合成领域的一项重大挑战。为此,引入了一种时空 U-Net 架构,该架构通过模型的一次单向传递即可生成视频的整个时间段。这与现有视频模型不同,现有视频模型会先合成关键帧,然后再进行时间超分辨率,这种方法从本质上使得全局时间一致性难以实现。https://arxiv.org/pdf/2401.12945.pdf通过部署空间和(重要地)时间下采样和上采样以及利用预训练的文本转图像扩散模型,我们的模型可以学习通过在多个时空尺度进行处理来直接生成全帧率、低分辨率视频。展示了最先进的文本转视频生成结果,并表明我们的设计可以轻松地促进各种内容创作任务和视频编辑应用程序,包括图像转视频、视频修复和风格化生成。简介指出了图像生成模型在近年
………………………………