Seed Research | 视频生成模型最新成果，可仅靠视觉认知世界！现已开源

字节跳动技术团队 · 公众号 · · 2025-02-12 18:00

文章预览

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”，VideoWorld 仅通过 “视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。团队实验发现，仅 300M 参数量下，VideoWorld 已取得可观的模型表现。现有模型大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习。然而，语言并不能捕捉真实世界中的所有知识。例如，折纸、打领结等复杂任务，难以通过语言清晰表达。作为一种通用视频生成实验模型，VideoWorld 去掉语言模型，实现了统一执行理解和推理任务。同时，它基于一种潜在动 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

贵州市场监管 · 假期后三天，暴雨、大暴雨来袭！

11 小时前

sven_shi · 我觉得科举不是为了对抗门阀，而是为了平衡门阀产生的。毕竟在那个低-20250503133627

14 小时前

酷玩实验室 · 信手拈来的“老红书”，让14万人为他落泪

昨天

sven_shi · 就是限韩还是会继续。-20250502125930

昨天

李楠或kkk · 直播的同学炸出来一个用户，太厉害了。是银粉的 AM infini-20250501203230

2 天前

金融业招聘官 · 社招 | 上海浦东发展银行总行最新招聘

10 月前

爱可可-爱生活 · 感谢梁老师推荐！-20250304222841

2 月前

Sixth Tone · Love Without Labels: Chinese Revise the Rules on Relationships

1 月前