视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应，生成多模态大型语言模型（MLLMs）！

集智书童 · 公众号 · · 2024-04-28 11:06

多模态LLM是LLM的自然演变，扩大了它们的能力，使其能够超越纯文本模态工作。随着研究行人设计新型架构和视觉与语言 Adapter ，本文作者专注于赋予这些模型回答需要外部知识的问题的能力。作者的方法称为Wiki-LLaVA，旨在整合一个多模态文档的外部知识源，通过分层检索 Pipeline 访问该知识源。通过这种方法，从外部知识源检索相关段落，并将其作为LLM的附加上下文，增强了生成对话的有效性和精确性。作者在针对视觉问答的外部数据定制的数据集上进行了大量实验，并证明了作者方法的适用性。1 Introduction近期，大型语言模型（LLM）在零样本文本任务中展现了令人印象深刻的性能。特别是，近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下，经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34]，从而使 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博