不做“传统机器人公司”的智元发了个大模型，要让机器人看视频就能进化

硅星人Pro · 公众号 · 科技媒体 · 2025-03-11 10:31

文章预览

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com 智元机器人发布了通用具身基座大模型——智元启元大模型（Genie Operator-1，简称GO-1）。官方视频中展示了机器人通过模仿人类操作，学习并完成各种家务任务，例如倒水、制作吐司早餐等。强调了机器人的物体追踪能力、智能跟随能力，以及通过学习大量人类视频数据来实现快速泛化的能力。那么，GO-1是如何实现这些功能的呢？其背后是ViLLA（视觉-语言-潜在动作）架构。具体来看，该架构由VLM（多模态大模型）+MoE（混合专家模型）组成。其中，MoE里包含2个关键的组成混合专家1 —— Latent Planner（隐式规划器）和混合专家2 —— Action Expert（动作专家）。将用于场景感知和语言理解的视觉语言模型与用于运动规划和执行的专家系统相结合。通过在人类操作视频和真实机器人数据上进行训练，能够在极少 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博