专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
日本通  ·  【玉置浩二 酒红色的心 ... ·  14 小时前  
今天看啥  ›  专栏  ›  FightingCV

DetCLIPv2:基于词语-区域对齐的可扩展开放词汇目标检测预训练

FightingCV  · 公众号  ·  · 2025-04-02 09:00
    

文章预览

摘要   本文提出了一种高效且可扩展的训练框架DetCLIPv2,该框架结合大规模图像-文本对来实现开放词汇目标检测(OVD)。   与以往通常依赖于预训练的视觉-语言模型(例如,CLIP)或通过伪标签过程利用图像-文本对的OVD框架不同,DetCLIPv2以端到端的方式直接学习来自海量图像-文本对的细粒度词语-区域对齐。   为此,我们采用区域建议和文本词语之间的最大词语-区域相似性来指导对比目标。   为了使模型在学习广泛概念的同时获得定位能力,DetCLIPv2在统一的数据表达下,利用来自检测、定位和图像-文本对数据的混合监督进行训练。   通过联合训练与交替方案,并采用低分辨率图像-文本对输入,DetCLIPv2高效有效地利用了图像-文本对数据:DetCLIPv2利用的图像-文本对数量比DetCLIP多13   ×   倍,训练时间相似,性能却有所提升。   使用1300万个图像 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览