文章预览
备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA ! 三维视觉定位旨在通过自由形式的自然语言描述在3D点云场景中定位目标目标。大多数先前的工作需要编码器-解码器同时跨模态对齐目标目标的属性信息及其与周围环境的关系信息。 这导致 Query 的注意力分散,可能过度关注与输入语言描述无关的点。为了缓解这些问题,作者提出了PD-TPE,一个具有双分支解码器的视觉-语言模型。两个分支并行执行 Proposal 特征解码和周围布局感知。 由于它们的注意力图不受彼此影响, Query 专注于与每个分支具体目标相关的标记。特别是,作者设计了一种新颖的文本引导位置编码方法,该方法在两个分支之间有所不同。在主分支中,先验依赖于标记与预测的3D框之间的相对位置
………………………………