专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

SpatialBot 空间大模型：上交、斯坦福、智源、北大、牛津、东大联合推出！

我爱计算机视觉 · 公众号 · · 2024-07-31 14:27

文章预览

关注公众号，发现CV技术之美大模型走向空间智能、具身智能之路！智源，斯坦福，北大，牛津，东大联合推出SpatialBot , 通过理解和使用深度图来理解空间。论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot RGB+Depth可以作为多模态大模型(MLLM/VLM)理解空间的途径，但是: 现有模型无法直接理解深度图输入。比如CLIP在训练时，没有见过深度图。现有大模型数据集，大多仅用RGB就可以分析、回答。模型不会主动到深度图中索引知识。因此，作者提出：三个层次的 SpatialQA 数据集。在low level引导模型理解深度图，在middle level让模型将depth与RGB对齐，在high level设计多个深度相关任务，标注了50k的数据，让模型在理解深度图的基础上，使用深度信息完成任务。 SpatialBen ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博