点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群开放词汇目标检测(OVD)已经通过视觉-语言模型(VLMs)来研究,以检测超出预训练类别的新颖物体。先前的方法通过使用带有额外'类别'名称的'积极'伪标签来提高检测器的泛化能力,例如袜子、iPod和鳄鱼。为了在两个方面扩展先前方法,作者提出了检索增强损失和视觉特征(RALF)。作者的方法检索相关的'负类'并增强损失函数。同时,视觉特征也通过类的'文字化概念'进行增强,例如,穿在脚上、手持音乐播放器和锋利牙齿。具体来说,RALF由两个模块组成:检索增强损失(RAL)检索增强视觉特征(RAF)RAL构成两个损失,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)中的文字化概念增强视觉特征。作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作
………………………………