浙大提出 PD-TPE | 用于3D视觉定位任务，特征提取和上下文感知，刷新 SOTA ！

集智书童 · 公众号 · · 2024-08-01 09:00

文章预览

备注好友：方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群浙大提出 PD-TPE | 用于3D视觉定位任务，特征提取和上下文感知，刷新 SOTA ！三维视觉定位旨在通过自由形式的自然语言描述在3D点云场景中定位目标目标。大多数先前的工作需要编码器-解码器同时跨模态对齐目标目标的属性信息及其与周围环境的关系信息。这导致 Query 的注意力分散，可能过度关注与输入语言描述无关的点。为了缓解这些问题，作者提出了PD-TPE，一个具有双分支解码器的视觉-语言模型。两个分支并行执行 Proposal 特征解码和周围布局感知。由于它们的注意力图不受彼此影响， Query 专注于与每个分支具体目标相关的标记。特别是，作者设计了一种新颖的文本引导位置编码方法，该方法在两个分支之间有所不同。在主分支中，先验依赖于标记与预测的3D框之间的相对位置 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中文投资网 · 华尔街爱上这支音乐流媒体股票

10 月前

代码随想录 · 实习鼠鼠，我学不下去了

9 月前

量化智投 · 维持稳健配置思路，回调后红利配置价值显现【国金金工高智威团队】

9 月前

詹姆斯吧官方微博 · 【比赛预告】明天11点半，常规赛第33场，湖人主场打开拓者，ES-20250102120500

4 月前

计算机视觉研究院 · 医学图像如何少走弯路？23个方向267篇论文助你快速复现SOTA模型！

2 月前