看啥推荐读物

专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何利用LLM做多模态任务？

AINLP · 公众号 · · 2023-05-11 18:30

作者｜胡安文（知乎同名）整理 | 李rumor大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。本文整理了近两年来基于LLM做vision-lanuage任务的一些工作，并将其划分为4个类别：冻住LLM，训练视觉编码器等额外结构以适配LLM，例如mPLUG-Owl，LLaVA，Mini-GPT4，Frozen，BLIP2，Flamingo，PaLM-E[1]将视觉转化为文本，作为LLM的输入，例如PICA(2022)，PromptCap(2022)[2]，ScienceQA(2022)[3]利用视觉模态影响LLM的解码，例如ZeroCap[4]，MAGIC利用LLM作为理解中枢调用多模态模型，例如VisualChatGPT(2023), MM-REACT(2023)接下来每个类别会挑选代表性的工作进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博