今天看啥  ›  专栏  ›  字节跳动技术团队

Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源

字节跳动技术团队  · 公众号  ·  · 2025-02-12 18:00
    

文章预览

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。 不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。   正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。 现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。 作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。同时,它基于 一种潜在动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览