专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

FightingCV  · 公众号  ·  · 2023-07-16 09:00
关注“FightingCV”公众号回复“AI”即可获得超100G人工智能的教程点击进入→ FightingCV交流群当前学界和工业界都对多模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,在多模态大模型领域保持较高热度。Flamingo 具备强大的多模态上下文少样本学习能力。Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、图文交错文档、视频文本对组成的多模态数据训练,在少样本上下文学习方面表现出强大能力。但是,Flamingo 在训练时只使用预测下一个文本单词作为目标,并没有对视觉部分施加专门的监督信号,直接导致了在推理阶段,其只能支持以文本作为输出的多模态任务,大大限制了模型的能力以及应用场景。F ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照