今天看啥  ›  专栏  ›  DataFunTalk

稚晖君的「好东西」揭晓!首个通用具身基座模型,机器人告别「看得懂做不来」

DataFunTalk  · 公众号  ·  · 2025-03-10 13:02
    

文章预览

转自 | 机器之心 上周五,稚晖君在微博上预告,「下周有好东西发布」。 还没进入「下周」多久,智元机器人的「好东西」揭晓了,还是双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。 机器人训练,苦数据难久矣。一方面是认知维度的数据:互联网上海量的文本和图片数据,帮助机器人建立基础认知,理解世界是什么样的。 另一方面是动作维度的数据,主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据,还有机器人在实际环境中实操得来的真机示教数据。 智元机器人将机器人的训练数据划分为四个层次 然而现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据。 我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要「翻译」成机器人能理解的语言。 因此,机器人 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览