看啥推荐读物
专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!

集智书童  · 公众号  ·  · 2024-04-28 11:06
多模态LLM是LLM的自然演变,扩大了它们的能力,使其能够超越纯文本模态工作。随着研究行人设计新型架构和视觉与语言 Adapter ,本文作者专注于赋予这些模型回答需要外部知识的问题的能力。作者的方法称为Wiki-LLaVA,旨在整合一个多模态文档的外部知识源,通过分层检索 Pipeline 访问该知识源。通过这种方法,从外部知识源检索相关段落,并将其作为LLM的附加上下文,增强了生成对话的有效性和精确性。作者在针对视觉问答的外部数据定制的数据集上进行了大量实验,并证明了作者方法的适用性。1 Introduction近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照