注册登录

看啥推荐读物

专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

软件定义世界（SDX） · 以四级评估为例 | ...· 昨天

数据派THU · BiTCN：基于卷积网络的多元时间序列预测· 2 天前

大数据文摘 · 谷歌Gemini时代来了！加固搜索护城河、赋 ...· 4 天前

数据派THU · Nature论文：斯坦福团队研发出普通眼镜尺 ...· 3 天前

软件定义世界（SDX） · 国家数据局局长刘烈宏：数据要素论· 6 天前

今天看啥 › 专栏 › 数据派THU

万字长文总结多模态大模型最新进展（Modality Bridging篇）

数据派THU · 公众号 · 大数据 · 2024-04-28 17:00

本文大约17000字，建议阅读20分钟本文介绍了多模态大规模的最新进展。‍多模态大型语言模型（MLLM）最近已成为一个新兴的研究热点，它将强大的大型语言模型（LLMs）作为大脑来执行多模态任务。MLLM 的惊人新能力，如基于图像撰写故事和无 OCR 的数学推理，在传统方法中很少见，这表明了通向通用人工智能的潜在路径。通常人们会在 pair 数据上进行大规模（相对于 instruction tuning）的预训练，以促进不同模态之间的对齐。对齐数据集通常是图像文本对或自动语音识别（ASR）数据集，它们都包含文本。更具体地说，图像文本对以自然语言句子的形式描述图像，而 ASR 数据集包含语音的转录。对齐预训练的常见方法是保持预训练模块（例如视觉编码器和 LLMs）冻结，并训练一个可学习的接口，本文调研了到近期位置不同的接口设计以及学习方法相关的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

软件定义世界（SDX） · 以四级评估为例 | 智能制造能力成熟度模型怎么用？如何评？

昨天

数据派THU · BiTCN：基于卷积网络的多元时间序列预测

2 天前

大数据文摘 · 谷歌Gemini时代来了！加固搜索护城河、赋能全家桶，Gemini 1.5 Pro升级至200万token

4 天前

数据派THU · Nature论文：斯坦福团队研发出普通眼镜尺寸的新一代AR头盔

3 天前

软件定义世界（SDX） · 国家数据局局长刘烈宏：数据要素论

6 天前

华尔街俱乐部 · TerraUSD创始人权道亨在黑山被捕

1 年前

北京市建华实验学校 · 小图形大品牌——中学部“青春正当时，强国有我”主题班徽设计作品展

2 年前

第一财经资讯 · 今晚开幕！没人呐喊的东京奥运会，还有哪些看点？

2 年前

广东民生DV现场 · 楼盘竟用交通指示牌做广告！网友怒了

3 年前

政治学人 · 国家自主性:破解中国现代化道路“双重难题”的关键因素——以权力、制度与机制为分析框架

4 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号