CVPR 2024 | 超越 Grounding DINO 和 GLIPv2！港科大最新开放词汇目标检测算法 DetClipv3

CVHub · 公众号 · · 2024-04-22 23:52

标题：DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection论文：https://arxiv.org/pdf/2404.09216.pdf导读Open-Vocabulary object Detection, OVD，即开放词汇目标检测，旨在识别和定位图像中多样化的对象类别，而不限于固定数量的预定义类别。同 Zero-Shot Learning, ZSL 即零样本学习类似，其核心思想均是在可见类(base class)上的数据训练，然后对不可见类(unseen class)的数据进行预测。其中，以 GroundingDINO 和 GLIP 为代表的 OVD 模型展示了巨大的潜力。然而，这些模型在推理时仍然依赖于预定义的类别列表，这极大限制了它们在实际场景中的应用。另一方面，人类却能够很轻松地从不同的粒度级别以层次化的方式理解物体，这种多层次识别能力展示了人类所拥有的丰富视觉理解能力，而这是当代OVD系统尚未实现的。这里，我们先给定一个例子：第一行：展示了传统的 OVD ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博