LIAM家用机器人模型发布，语言/图像/动作/地图四维预对齐，语义地图驱动高效执行

集智书童 · 公众号 · · 2025-05-01 09:00

文章预览

点击下方卡片，关注「集智书童」公众号点击加入👉 「集智书童」交流群导读大语言模型和开放词汇物体感知方法的出现，为家用服务机器人提供了更大的灵活性。通过为机器人提供任务描述和适当的环境信息，可以解决家用任务的多样性，而无需对每个任务进行单独实施。在本工作中，作者提出了LIAM——一个端到端模型，该模型基于语言、图像、动作和地图输入预测动作脚本。语言和图像输入使用CLIP Backbone 网络进行编码，为此作者设计了两个预训练任务以微调其权重并预对齐潜在空间。作者在ALFRED数据集上评估了LIAM，这是一个用于家用任务的模拟器生成的基准数据集。作者的结果表明，预对齐来自不同模态的嵌入空间的重要性以及融入语义地图的有效性。 1 引言随着深度学习研究的快速演变，尤其是在自然语言领域，作者见证了大量 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博