主要观点总结
北京大学袁粒课题组联合南洋理工大学实验室和清华自动化所提出了一种新的通用检索任务:通用风格检索(Style-Diversified Retrieval)。该任务要求模型在面临风格多样的查询条件时,依然能精准找图。为此,他们提出了FreestyleRet框架,并公开了相关论文和数据集。论文指出当前图像检索的一大痛点是让检索模型具备理解多样化用户查询向量的能力,并介绍了为解决此问题所进行的工作和实验性能展示。
关键观点总结
关键观点1: 通用风格检索任务介绍
该任务要求模型面对多样化的查询风格时,依然能精准检索图像。传统的图像检索主要依赖文本查询,性能一般。论文提出的新图像检索方法能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至支持组合查询。
关键观点2: FreestyleRet框架介绍
为解决通用风格检索任务,团队提出了FreestyleRet框架。该框架通过提取并注入图片风格,有效解决当前图片检索模型无法兼容不同类型检索向量的问题。框架包括三个模块:风格提取模块、风格空间构建模块和风格启发的提示微调模块。
关键观点3: 数据集构建和实验性能展示
团队构建了细粒度检索数据集DSR(Diverse-Style Retrieval Dataset),用于多种查询风格的图片文本检索任务。此外,采用ImageNet-X作为大尺寸粗粒度的多风格检索数据集。实验证明,FreestyleRet框架可以显著增强现有检索模型的泛化能力,具有2-4%的提升。
文章预览
北京大学袁粒课题组 投稿 量子位 | 公众号 QbitAI 从一大堆图片中精准找图 ,有新招了!论文已经中了ECCV 2024。 北京大学袁粒课题组,联合南洋理工大学实验室,清华自动化所提出了一种新的通用检索任务: 通用风格检索(Style-Diversified Retrieval) 。 一句话,这种检索任务要求模型面对风格多样的查询条件时,依然能精准找图。 传统图片检索主要靠 文本查询 ,查询方法单一不说,在使用其他检索方案的性能也一般。 而论文提出的 新图像检索方法 ,能够根据多样化的查询风格(如草图、艺术画、低分辨率图像和文本等)来检索相应图像,甚至包括组合查询(草图+文本、艺术+文本等)。 同时,模型在与其他检索基线之间的性能比较中达到 SOTA 。 (最外围蓝色) 目前,论文已在arXiv公开,相关代码和数据集也已开源。 新图像检索方法 当前,图像检
………………………………