专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学

量子位  · 公众号  · AI  · 2025-03-22 15:49
    

文章预览

MetaSpatial团队 投稿 量子位 | 公众号 QbitAI 在三维空间理解任务中,让视觉语言模型(VLM)生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例,现有模型尽管能够识别图像中的物体,甚至给出语义连贯的布局描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为了解决这一问题,已有研究尝试采用多智能体交互(multi-agent interaction)方法,通过多个语言模型或代理之间的迭代协商与验证优化布局结果。然而,这类方法不仅计算成本高,而且在迭代过程中容易陷入死锁,导致无法收敛至有效解。 另一类方法则通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)对模型进行训练。这种方式可以在一定程度上提升模型基础能力,但受到空间任务本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览