看啥推荐读物
专栏名称: NLPPaperWeekly
论文学习,主要关注nlp,对话系统,大模型,多模态等领域的论文
今天看啥  ›  专栏  ›  NLPPaperWeekly

​探索Sora背后秘密(1):结合OpenAI Sora技术报告来看其能力和技术点

NLPPaperWeekly  · 公众号  ·  · 2024-02-20 12:42
大家好,我是HxShine最近被Sora刷屏,今天结合OpenAI Sora的技术报告Video generation models as world simulators来看下Sora具备哪些能力,以及这些能力是怎么来的。功能上除了文生图,还支持以图片、视频作为prompt,极大拓展使用场景。技术上,利用spacetime patches,统一了时空分割语言,为后续模型训练以及使用场景的拓展打下基础。数据侧在准备高质量的caption数据做了专门的优化。另外模型基础架构采用Diffusion Transformer,通过Scalling,显著提升生成质量。技术: 将视频信息处理成spacetime patches,统一了时空分割的语言,方便支持不同尺寸、时间、分辨率的数据。使用Diffusion Transformer作为主干网络进行建模,方便对模型规模进行扩展。训练Video compression network降低视觉数据维度,在压缩潜在空间训练生成模型和解码模型。通过Scalling显著提升生成质量。数据工程 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照