EVE: 采用掩码预测和模态-觉察MoE的高效视觉-语言预训练

大语言模型和具身智体及自动驾驶 · 公众号 · · 2023-11-09 16:37

23年8月论文“EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE“，来自中山大学、中科院自动化所和字节公司。构建可扩展的视觉-语言模型以从多样化的多模态数据中学习，仍然是一个悬而未决的挑战。本文介绍了一个高效视觉-语言的基础模型，即EVE，一个统一的多模态Transformer，仅通过一个统一任务进行预训练。具体而言，EVE在与模态-觉察稀疏混合专家（MoE）模块集成的共享Transformer网络中，对视觉和语言进行编码，该模块选择性切换到不同的专家捕获模态特定信息。为了统一视觉和语言的预训练任务，EVE对图像-文本对进行掩码信号建模，在给定可见信号的情况下重建掩码信号，即图像像素和文本token。与用图像-文本对比度和图像-文本匹配损失进行预训练的模型相比，这个简单而有效的预训练目标将训练加速了3.5倍。由于 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

科普中国 · 这种热量超低的瘦身水果，糖尿病人也能放心吃！现在吃正好

昨天

科普中国 · 都是“锂电池”，为什么充电宝能带上飞机，电动自行车却总出事呢？

2 天前

科普中国 · 真的别长期只吃一种食用油！健康吃油，只需记住这 2 点

2 天前

科普中国 · 食物界的顶级伪装者，到底有什么过人本领？

3 天前

原理 · 宇宙的拓扑结构可能并不简单！

4 天前

长信基金e服务 · 攻守兼备固收+，寻找市场有效前沿！一文读懂长信固收投研团队的最新市场展望观点

2 年前

App推广的那些事 · A股互联网板块上市公司名单市值以及主营业务—App推广的那些事

2 年前

共青团中央 · 石家庄第二轮核酸检测全部完成，有这3个特点！

3 年前

小小包麻麻 · 包爸聊育儿 | 宝宝会走还要抱，原因让人心疼

4 年前

人民日报 · 【关注】31省份2018年GDP出炉，你家那里表现如何？

5 年前