今天看啥  ›  专栏  ›  集智书童

如果你心里还只有YOLO-World你就输了!DetCLIPv3出手,性能大幅度超出一众SOTA模型!

集智书童  · 公众号  ·  · 2024-04-28 11:06
点击下方卡片,关注「集智书童」公众号点击加入👉「集智书童」交流群现有的开词汇目标检测器通常需要用户预设一组类别,这大大限制了它们的应用场景。在本文中,作者介绍了DetCLIPv3,这是一种高性能检测器,不仅在开词汇目标检测方面表现出色,同时还能为检测到的目标生成分层标签。DetCLIPv3的特点有三个核心设计:多功能的模型架构:作者导出一个健壮的开集检测框架,并通过集成字幕 Head 进一步赋予其生成能力。高信息密度数据:作者开发了一个自动标注 Pipeline ,利用视觉大型语言模型来细化大规模图像-文本对中的字幕,为训练提供丰富、多粒度的目标标签以增强训练。高效的训练策略:作者采用了一个预训练阶段,使用低分辨率输入,使目标字幕生成器能够从广泛的图像-文本配对数据中高效学习广泛的视觉概念。在预训练之后是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照