刚刚，LeCun亲自出镜，Meta推出新世界模型！

机器之心 · 公众号 · AI · 2025-06-12 08:53

主要观点总结

文章介绍了Meta推出的基于视频训练的世界模型V-JEPA 2，它能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。文章还提到了Meta使用自监督学习训练V-JEPA 2的方法，以及该模型在基准测试中的表现。

关键观点总结

关键观点1: Meta推出基于视频训练的世界模型V-JEPA 2

V-JEPA 2是Meta新推出的世界模型，能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。

关键观点2: V-JEPA 2的特点与性能

V-JEPA 2包含两个主要组件：编码器和预测器。编码器接收原始视频并输出嵌入，这些嵌入能够捕捉世界状态的语义信息；预测器接收视频嵌入以及关于预测内容的附加上下文，并输出预测后的嵌入。在训练中，Meta使用基于视频的自监督学习来训练V-JEPA 2，无需额外的人工注释即可在视频上进行训练。

关键观点3: Meta在V-JEPA 2方面的创新

Meta在V-JEPA 2的训练中采用了两个阶段：无动作预训练和后续的动作条件训练。此外，Model还结合了语言模型，在视频问答基准上实现了最先进的性能。在训练的第二阶段，Meta利用机器人数据提升模型的规划能力，使模型能够在进行预测时考虑具体动作，然后用于控制。

关键观点4: V-JEPA 2与其他模型的比较

V-JEPA 2在Hugging Face关于物理推理榜单上排名第一，超越了GPT-4等其他模型。

关键观点5: Meta的未来计划

Meta计划在多个领域进一步探索世界模型，并专注于训练能够跨多个时间和空间尺度进行学习、推理和规划的分层JEPA模型，以及多模态JEPA模型。

文章预览

机器之心报道机器之心编辑部最近，Meta 大动作不断。前些天有外媒曝出马克・扎克伯格正在组建一个名为「超级智能团队」的专家团队，以实现通用人工智能。随后开出 9 位数的薪酬为该团队吸纳人才。就在刚刚，Meta 又有新的动作，推出基于视频训练的世界模型 V-JEPA 2（全称 Video Joint Embedding Predictive Architecture 2）。其能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。 Meta 表示，他们在追求高级机器智能（AMI）的目标过程中，关键在于开发出能像人类一样认知世界、规划陌生任务执行方案，并高效适应不断变化环境的 AI 系统。这次，Meta 首席 AI 科学家 Yann LeCun 亲自出镜，介绍世界模型与其他 AI 模型的不同。他说，世界模型是一种现实的抽象数字孪生，AI 可以参考它来理解世界并预测其行为的后果。与理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博