VG4D | 突破4D点云识别局限，融合视觉-语言模型实现动作识别新高度！

集智书童 · 公众号 · · 2024-04-22 09:00

通过点云视频理解现实世界对于机器人和自动驾驶系统来说是一个至关重要的方面。然而，由于传感器分辨率的限制，目前用于4D点云识别的方法存在局限性，导致缺乏详细信息。近期的研究进展表明，在网页规模的文本-图像数据集上预训练的视觉-语言模型（VLM）可以学习到可以转移到各种下游任务的细粒度视觉概念。然而，有效地将VLM整合到4D点云领域仍然是一个未解决的问题。在这项工作中，作者提出了视觉-语言模型进入4D（VG4D）框架，以将VLM知识从视觉-文本预训练模型转移到4D点云网络中。作者的方法包括将4D编码器的表征与VLM对齐，从大规模图像-文本对的训练中学习共享的视觉和文本空间。通过将VLM的知识转移到4D编码器并结合VLM，作者的VG4D实现了识别性能的改进。为了增强4D编码器，作者对经典的动态点云 Backbone 网络进行了现代化改进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博