看啥推荐读物
专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

​三星新出检测神器 | 通过聊天+看图的形式轻松完成目标检测,性能 SOTA

集智书童  · 公众号  ·  · 2024-04-25 09:00
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群开放词汇目标检测(OVD)已经通过视觉-语言模型(VLMs)来研究,以检测超出预训练类别的新颖物体。先前的方法通过使用带有额外'类别'名称的'积极'伪标签来提高检测器的泛化能力,例如袜子、iPod和鳄鱼。为了在两个方面扩展先前方法,作者提出了检索增强损失和视觉特征(RALF)。作者的方法检索相关的'负类'并增强损失函数。同时,视觉特征也通过类的'文字化概念'进行增强,例如,穿在脚上、手持音乐播放器和锋利牙齿。具体来说,RALF由两个模块组成:检索增强损失(RAL)检索增强视觉特征(RAF)RAL构成两个损失,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)中的文字化概念增强视觉特征。作者的实验证明了RALF在COCO和LVIS基准数据集上的有效性。作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照