今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

EVE: 采用掩码预测和模态-觉察MoE的高效视觉-语言预训练

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2023-11-09 16:37
23年8月论文“EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE“,来自中山大学、中科院自动化所和字节公司。构建可扩展的视觉-语言模型以从多样化的多模态数据中学习,仍然是一个悬而未决的挑战。本文介绍了一个高效视觉-语言的基础模型,即EVE,一个统一的多模态Transformer,仅通过一个统一任务进行预训练。具体而言,EVE在与模态-觉察稀疏混合专家(MoE)模块集成的共享Transformer网络中,对视觉和语言进行编码,该模块选择性切换到不同的专家捕获模态特定信息。为了统一视觉和语言的预训练任务,EVE对图像-文本对进行掩码信号建模,在给定可见信号的情况下重建掩码信号,即图像像素和文本token。与用图像-文本对比度和图像-文本匹配损失进行预训练的模型相比,这个简单而有效的预训练目标将训练加速了3.5倍。由于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照