Summary 简介这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。本篇正文共 1891 字,仔细阅读约 5 分钟以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策——Sora确实令人惊叹,它将彻底改变视频生成领域。我们目前所了解到的情况如下:架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合
………………………………