看啥推荐读物
专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

Sora 作为 AGI 世界模型?关于《文本到视频生成》完整综述

专知  · 公众号  ·  · 2024-03-12 14:00
文本到视频生成标志着在快速发展的生成式人工智能领域中的一个重要前沿,融合了文本到图像合成、视频字幕生成和文本引导编辑的进展。本综述批判性地考察了文本到视频技术的进展,聚焦于从传统生成模型到尖端的Sora模型的转变,强调了在可扩展性和泛化性方面的发展。区别于以往的分析,我们提供了对这些模型的技术框架和演进路径的深入探讨。此外,我们深入研究了实际应用,并讨论了伦理和技术挑战,如无法处理多实体操作、理解因果效应学习、理解物理交互、感知对象缩放和比例调整,以及对抗对象幻觉,这也是生成模型中一个长期存在的问题。我们的综合讨论涵盖了使文本到视频生成模型作为人类辅助工具和世界模型的主题,以及引出模型的不足和总结未来的改进方向,主要集中在训练数据集和评估指标(自动的和以人为中心的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照