看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

PaperWeekly  · 公众号  · 科研  · 2024-03-24 21:06
©作者 | 机器之心编辑部来源 | 机器之心近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并在实现全能性的同时保持 SOTA 性能。此外,GLEE 还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照