稚晖君的「好东西」揭晓！首个通用具身基座模型，机器人告别「看得懂做不来」

DataFunTalk · 公众号 · · 2025-03-10 13:02

文章预览

转自 | 机器之心上周五，稚晖君在微博上预告，「下周有好东西发布」。还没进入「下周」多久，智元机器人的「好东西」揭晓了，还是双重惊喜：Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。机器人训练，苦数据难久矣。一方面是认知维度的数据：互联网上海量的文本和图片数据，帮助机器人建立基础认知，理解世界是什么样的。另一方面是动作维度的数据，主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据，还有机器人在实际环境中实操得来的真机示教数据。智元机器人将机器人的训练数据划分为四个层次然而现有的 VLA（Vision-Language-Action）架构，主要依赖真机和合成数据。我们每天刷的短视频有很多可供机器人学习的操作，但不能直接用，需要「翻译」成机器人能理解的语言。因此，机器人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博