DetCLIPv2：基于词语-区域对齐的可扩展开放词汇目标检测预训练

FightingCV · 公众号 · · 2025-04-02 09:00

文章预览

摘要本文提出了一种高效且可扩展的训练框架DetCLIPv2，该框架结合大规模图像-文本对来实现开放词汇目标检测（OVD）。与以往通常依赖于预训练的视觉-语言模型（例如，CLIP）或通过伪标签过程利用图像-文本对的OVD框架不同，DetCLIPv2以端到端的方式直接学习来自海量图像-文本对的细粒度词语-区域对齐。为此，我们采用区域建议和文本词语之间的最大词语-区域相似性来指导对比目标。为了使模型在学习广泛概念的同时获得定位能力，DetCLIPv2在统一的数据表达下，利用来自检测、定位和图像-文本对数据的混合监督进行训练。通过联合训练与交替方案，并采用低分辨率图像-文本对输入，DetCLIPv2高效有效地利用了图像-文本对数据：DetCLIPv2利用的图像-文本对数量比DetCLIP多13 × 倍，训练时间相似，性能却有所提升。使用1300万个图像 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博