专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
今天看啥  ›  专栏  ›  AI算法与图像处理

[ACM MM2024] CREAM: 文档 VQA 的粗到细检索和多模态高效调整

AI算法与图像处理  · 公众号  ·  · 2024-10-17 19:46
    

文章预览

本文简要介绍ACM Multimedia 2024录用论文“CREAM: Coarse-to-Fine Retrieval and Multi-modal Efficient Tuning for Document VQA”的主要工作。该论文主要针对多页文档VQA问题,设计了一种从粗到细的检索算法:通过基于Embedding的相似度检索、多轮分组与LLM重排序,从文档的OCR结果中选择最相关的文本块;并设计了一种能够处理多页文档图像的视觉编码器,并通过参数高效微调,在多页文档VQA基准上达到了SOTA。 一、研究背景 文档VQA(Visual Question Answering)非常具有实用价值,可以快速、准确地从大量文档中提取答案,以回答用户的问题。作为当前多模态领域最具挑战性的任务之一,它不仅需要理解文本语义,还需要理解视觉和图像语义。然而,目前多数方法在多页文档以及具有冗长内容的单页文档上表现不佳。 二、方法原理简述 图1 论文方法的整体框架 图1是论文提出的CR ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览