对话被引数 3 万+论文作者：AI视频的未来属于自回归

差评X.PIN · 公众号 · 热门自媒体 · 2025-06-02 00:00

主要观点总结

本文介绍了基于自回归模型生成视频的技术路径、优势以及未来发展趋势。文章通过对 Sand.ai 联合创始人张拯的采访，深入探讨了扩散模型和自回归模型在视频生成领域的研究历程、优缺点，以及融合趋势。张拯指出，自回归模型更适合生成长时间的视频内容，并在建模因果结构上具有天然优势。同时，他也提到了在数据准备和数据质量上的挑战，以及开源和创业的决定。文章还讨论了扩散蒸馏技术在提高模型推理效率上的作用，以及未来在视觉质量和物理仿真方面的提升方向。张拯及其团队对视觉模型技术界的贡献是突破性的，其开源模型 MAGI-1 为视频生成领域提供了新的可能性。

关键观点总结

关键观点1: 自回归模型与扩散模型的融合趋势

自回归模型更适合生成长时间的视频内容，并在建模因果结构上具有优势。扩散模型则在生成短视频片段上表现较好。两者结合可形成新的模式，实现优势互补。

关键观点2: 数据准备和数据质量的挑战

在视频生成领域，特别是在物理仿真方面，数据准备和数据质量是限制模型性能的关键因素。需要收集更多与碰撞、物理效应相关的数据集。

关键观点3: 开源与创业的决定

张拯选择开源模型，旨在推动视频生成技术的发展，并希望借助开源社区的力量。他认为，开源模型所带来的损失并不大，且有助于推动技术进步。

关键观点4: 扩散蒸馏技术在提高推理效率上的作用

扩散蒸馏技术可大幅减少模型在推理阶段的生成步骤，提高生成效率，从而节省计算成本。

关键观点5: 未来在视觉质量和物理仿真方面的提升方向

尽管模型在视觉效果方面已有所进步，但在物理仿真方面仍有改进空间。未来的研究需集中在数据准备、模型设计和算法优化上，以提高模型的物理一致性。

文章预览

* 本文原创发布于差评孵化的商业财经类帐号 “ 知危 ” 当前，各大商业视频生成模型几乎都是基于纯扩散模型。扩散模型（ Diffusion model ）与自回归模型（ Autoregressive model ）作为视频生成的两大技术路径，各自展现了不同的特性与优势。为深入探讨两种模型的优劣势、融合趋势，以及视频生成未来的发展前景，我们特邀 Sand.ai 联合创始人、首席科学家张拯进行深度对话。张拯是华中科技大学软件工程专业本硕，《 Swin Transformer 》作者之一， ACM 亚洲金牌获得者，微软亚洲研究院 MSRA 研究员（在 MSRA 期间和曹越合作五年）， ICCV2021 最佳论文奖获得者（马尔奖 Marr Prize ) ，目前谷歌学术总引用近 5 万次。张拯及其团队对视觉模型技术界的贡献是突破性的。此前，Vision Transformer （ ViT ）是第一篇将纯 Transformer 架构成功应用于图像分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博