看啥推荐读物
专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【CVPR2024】探索视觉基础模型的三维感知能力

数据派THU  · 公众号  · 大数据  · 2024-04-28 17:00
来源:专知本文为论文介绍,建议阅读5分钟在这项工作中,我们分析了视觉基础模型的三维感知能力。近期在大规模预训练领域的进展已经催生了具有强大能力的视觉基础模型。这些模型不仅能够将训练任务泛化到任意图像,其中间表示也对其他视觉任务如检测和分割非常有用。鉴于这样的模型可以在2D中分类、勾画和定位对象,我们提出一个问题:它们是否也能表征对象的3D结构?在这项工作中,我们分析了视觉基础模型的三维感知能力。我们认为,三维感知意味着表示能(1)编码场景的三维结构;(2)在不同视图中一致地表征表面。我们使用任务特定的探针和冻结特征上的零样本推理流程进行了一系列实验。我们的实验揭示了当前模型的几个限制。我们的代码和分析可以在 https://github.com/mbanani/probe3d 找到。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照