具身智能论文巡礼(二) - DeepMind RT-2

CVHub · 公众号 · · 2024-04-08 21:03

标题: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 论文: https://arxiv.org/pdf/2307.15818.pdf导读前作RT1的限制RT1 是纯 low-level controller 的任务，训练的时候不会从互联网规模的丰富语义知识中受益机器人控制数据成本高，数据集小（130k），模型泛化性能差模型参数量少（35M），无法具有理解和推理能力PaLM-E 这些又是 high-level planning 的，训练的时候会从互联网规模的丰富语义知识中受益，但是本质上是充当状态机的角色，只是解释命令并将其解析为单个原语(例如拾取和放置对象)思路利用好PaLM-E 这种预训练的能力来增强泛化能力RT1 只是尽可能地拟合数据集的轨迹，泛化能力有限RT1+PaLM-E 可以找一些更符合人的行为的轨迹即训练一个单一的模型同时具有以下两种能力:将机器人的观察转换成动作的能力（RT1）多模态大模型的推理能力（PaLM-E 等） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博