专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
今天看啥  ›  专栏  ›  我爱计算机视觉

SpatialBot 空间大模型:上交、斯坦福、智源、北大、牛津、东大联合推出!

我爱计算机视觉  · 公众号  ·  · 2024-07-31 14:27
    

文章预览

关注公众号,发现CV技术之美 大模型走向空间智能、具身智能之路! 智源,斯坦福,北大,牛津,东大联合推出SpatialBot , 通过理解和使用深度图来理解空间。 论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot RGB+Depth可以作为多模态大模型(MLLM/VLM)理解空间的途径,但是: 现有模型无法直接理解深度图输入。比如CLIP在训练时,没有见过深度图。 现有大模型数据集,大多仅用RGB就可以分析、回答。模型不会主动到深度图中索引知识。 因此,作者提出: 三个层次的 SpatialQA 数据集。在low level引导模型理解深度图,在middle level让模型将depth与RGB对齐,在high level设计多个深度相关任务,标注了50k的数据,让模型在理解深度图的基础上,使用深度信息完成任务。 SpatialBen ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览