主要观点总结
文章介绍了Meta推出的基于视频训练的世界模型V-JEPA 2,它能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。文章还提到了Meta使用自监督学习训练V-JEPA 2的方法,以及该模型在基准测试中的表现。
关键观点总结
关键观点1: Meta推出基于视频训练的世界模型V-JEPA 2
V-JEPA 2是Meta新推出的世界模型,能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。
关键观点2: V-JEPA 2的特点与性能
V-JEPA 2包含两个主要组件:编码器和预测器。编码器接收原始视频并输出嵌入,这些嵌入能够捕捉世界状态的语义信息;预测器接收视频嵌入以及关于预测内容的附加上下文,并输出预测后的嵌入。在训练中,Meta使用基于视频的自监督学习来训练V-JEPA 2,无需额外的人工注释即可在视频上进行训练。
关键观点3: Meta在V-JEPA 2方面的创新
Meta在V-JEPA 2的训练中采用了两个阶段:无动作预训练和后续的动作条件训练。此外,Model还结合了语言模型,在视频问答基准上实现了最先进的性能。在训练的第二阶段,Meta利用机器人数据提升模型的规划能力,使模型能够在进行预测时考虑具体动作,然后用于控制。
关键观点4: V-JEPA 2与其他模型的比较
V-JEPA 2在Hugging Face关于物理推理榜单上排名第一,超越了GPT-4等其他模型。
关键观点5: Meta的未来计划
Meta计划在多个领域进一步探索世界模型,并专注于训练能够跨多个时间和空间尺度进行学习、推理和规划的分层JEPA模型,以及多模态JEPA模型。
文章预览
机器之心报道 机器之心编辑部 最近,Meta 大动作不断。 前些天有外媒曝出马克・扎克伯格正在组建一个名为「超级智能团队」的专家团队,以实现通用人工智能。随后开出 9 位数的薪酬为该团队吸纳人才。 就在刚刚,Meta 又有新的动作,推出 基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2) 。其能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。 Meta 表示,他们在追求高级机器智能(AMI)的目标过程中,关键在于开发出能像人类一样认知世界、规划陌生任务执行方案,并高效适应不断变化环境的 AI 系统。 这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,介绍世界模型与其他 AI 模型的不同。 他说,世界模型是一种现实的抽象数字孪生,AI 可以参考它来理解世界并预测其行为的后果。与理
………………………………