专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
今天看啥  ›  专栏  ›  AI科技大本营

LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制...

AI科技大本营  · 公众号  · AI 科技自媒体  · 2025-06-12 18:48
    

主要观点总结

Meta发布了基于视频训练的先进AI系统V-JEPA 2,旨在让机器理解、预测并交互物理世界。此次发布包括三个新的基准测试,用于评估模型对物理世界的推理能力。V-JEPA 2具有编码器和预测器两大组件,并通过两个阶段进行训练。第一阶段是无动作预训练,旨在建立感知语义基础;第二阶段是动作条件训练,使模型具备可控性。此外,Meta还介绍了世界模型的概念及其在实现通用机器人智能方面的潜力。同时发布了三大物理理解基准测试来评估模型的表现。未来,Meta团队将探索分层式世界模型和多模态建模能力,推动AI的发展。

关键观点总结

关键观点1: Meta发布V-JEPA 2系统

V-JEPA 2是一款基于视频训练的先进AI系统,具有更深层次的物理世界理解、预测及交互能力。

关键观点2: 三个全新的基准测试

Meta发布了三个新的基准测试,用于评估现有模型通过视频对物理世界进行推理的能力,包括IntPhys 2、MVPBench、CausalVQA。

关键观点3: V-JEPA 2的训练两大组件和两大阶段

V-JEPA 2由编码器和预测器两大组件组成,训练分为无动作预训练和动作条件训练两个阶段。

关键观点4: 世界模型的概念和潜力

Meta团队介绍了世界模型的概念,并阐述了其在实现通用机器人智能方面的广阔潜力。

关键观点5: 未来发展方向

Meta团队未来的重点是探索分层式世界模型和多模态建模能力,推动AI的发展。


文章预览

整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 让 AI 像人一样理解世界并与环境互动。 Meta 重磅发布了  V-JEPA 2(Video Joint Embedding Predictive Architecture 2) 世界模型,并同时 发布了三个全新的基准测试,用于评估现有模型通过视频对物理世界进行推理的能力。 这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,并介绍了世界模型与其他模型的不同之处。 V-JEPA 2 是 一款基于视频训练的先进 AI 系统,旨在赋予机器更深层次的物理世界理解、预测及交互能力,向着构建更通用的AI智能体迈出关键一步。 一经发布,便在 X 上引发了众多关注与讨论。 目前  V-JEPA 2 在  Hugging Face 物理推理能力排行榜上排行第一,已超过 GPT-4o。 用百万小时视频打造「世界模型」 只靠 62 小时机器人数据就能上手控制 Meta 团队认为,未来 AI 的关键在于具备对现实世界进行计划与推 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览