看啥推荐读物
专栏名称: CVHub
门头沟学院AI视觉实验室御用公众号 | 学术 | 科研 | 就业
今天看啥  ›  专栏  ›  CVHub

CVPR 2024 | 超越 Grounding DINO 和 GLIPv2!港科大最新开放词汇目标检测算法 DetClipv3

CVHub  · 公众号  ·  · 2024-04-22 23:52
标题:DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection论文:https://arxiv.org/pdf/2404.09216.pdf导读Open-Vocabulary object Detection, OVD,即开放词汇目标检测,旨在识别和定位图像中多样化的对象类别,而不限于固定数量的预定义类别。同 Zero-Shot Learning, ZSL 即零样本学习类似,其核心思想均是在可见类(base class)上的数据训练,然后对不可见类(unseen class)的数据进行预测。其中,以 GroundingDINO 和 GLIP 为代表的 OVD 模型展示了巨大的潜力。然而,这些模型在推理时仍然依赖于预定义的类别列表,这极大限制了它们在实际场景中的应用。另一方面,人类却能够很轻松地从不同的粒度级别以层次化的方式理解物体,这种多层次识别能力展示了人类所拥有的丰富视觉理解能力,而这是当代OVD系统尚未实现的。这里,我们先给定一个例子:第一行:展示了传统的 OVD ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照