三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测，性能 SOTA

集智书童 · 公众号 · · 2024-04-25 09:00

点击下方卡片，关注「集智书童」公众号点击加入👉「集智书童」交流群开放词汇目标检测（OVD）已经通过视觉-语言模型（VLMs）来研究，以检测超出预训练类别的新颖物体。先前的方法通过使用带有额外'类别'名称的'积极'伪标签来提高检测器的泛化能力，例如袜子、iPod和鳄鱼。为了在两个方面扩展先前方法，作者提出了检索增强损失和视觉特征（RALF）。作者的方法检索相关的'负类'并增强损失函数。同时，视觉特征也通过类的'文字化概念'进行增强，例如，穿在脚上、手持音乐播放器和锋利牙齿。具体来说，RALF由两个模块组成：检索增强损失（RAL）检索增强视觉特征（RAF）RAL构成两个损失，反映与负词汇的语义相似性。此外，RAF使用大型语言模型（LLM）中的文字化概念增强视觉特征。作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博