看啥推荐读物
专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

如何利用LLM做多模态任务?

AINLP  · 公众号  ·  · 2023-05-11 18:30
作者|胡安文(知乎同名)整理 | 李rumor大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些多模态任务还是有一定的研究价值的。本文整理了近两年来基于LLM做vision-lanuage任务的一些工作,并将其划分为4个类别:冻住LLM,训练视觉编码器等额外结构以适配LLM,例如mPLUG-Owl,LLaVA,Mini-GPT4,Frozen,BLIP2,Flamingo,PaLM-E[1]将视觉转化为文本,作为LLM的输入,例如PICA(2022),PromptCap(2022)[2],ScienceQA(2022)[3]利用视觉模态影响LLM的解码,例如ZeroCap[4],MAGIC利用LLM作为理解中枢调用多模态模型,例如VisualChatGPT(2023), MM-REACT(2023)接下来每个类别会挑选代表性的工作进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照