专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【WWW2025】ImageScope:通过大型多模态模型集体推理统一语言引导的图像检索

专知  · 公众号  ·  · 2025-04-23 11:00
    

文章预览

随着在线内容中图像数量的激增,语言引导的图像检索(Language‑Guided Image Retrieval,LGIR)在过去十年间成为研究热点,涵盖了输入形式多样的若干子任务。虽然大型多模态模型(Large Multimodal Models,LMMs)的发展显著推动了这些任务的进步,但现有方法往往将各子任务割裂处理,需要为每个任务单独构建系统。这不仅增加了系统复杂度与维护成本,还因语言歧义与图像内容复杂性而加剧检索不准确、结果不可靠的问题。 为此,我们提出  ImageScope  ——一个无需额外训练的三阶段框架,通过集体推理(collective reasoning)统一解决 LGIR 任务。其核心洞见在于利用语言的组合性:先将各种 LGIR 任务转化为通用的文本‑到‑图像检索流程,再借助 LMM 的推理作为统一验证环节来精炼结果。 阶段一 :基于思维链(Chain‑of‑Thought, CoT)推理,在不同语义粒度层 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览