更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

FightingCV · 公众号 · · 2023-07-16 09:00

关注“FightingCV”公众号回复“AI”即可获得超100G人工智能的教程点击进入→ FightingCV交流群当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉语言模型处理多项任务，在多模态大模型领域保持较高热度。Flamingo 具备强大的多模态上下文少样本学习能力。Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合，并插入可学习的层来捕捉跨模态依赖，其采用图文对、图文交错文档、视频文本对组成的多模态数据训练，在少样本上下文学习方面表现出强大能力。但是，Flamingo 在训练时只使用预测下一个文本单词作为目标，并没有对视觉部分施加专门的监督信号，直接导致了在推理阶段，其只能支持以文本作为输出的多模态任务，大大限制了模型的能力以及应用场景。F ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博