看啥推荐读物
专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

万字长文总结多模态大模型最新进展(Modality Bridging篇)

数据派THU  · 公众号  · 大数据  · 2024-04-28 17:00
本文大约17000字,建议阅读20分钟本文介绍了多模态大规模的最新进展。‍多模态大型语言模型(MLLM)最近已成为一个新兴的研究热点,它将强大的大型语言模型(LLMs)作为大脑来执行多模态任务。MLLM 的惊人新能力,如基于图像撰写故事和无 OCR 的数学推理,在传统方法中很少见,这表明了通向通用人工智能的潜在路径。通常人们会在 pair 数据上进行大规模(相对于 instruction tuning)的预训练,以促进不同模态之间的对齐。对齐数据集通常是图像文本对或自动语音识别(ASR)数据集,它们都包含文本。更具体地说,图像文本对以自然语言句子的形式描述图像,而 ASR 数据集包含语音的转录。对齐预训练的常见方法是保持预训练模块(例如视觉编码器和 LLMs)冻结,并训练一个可学习的接口,本文调研了到近期位置不同的接口设计以及学习方法相关的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照