文章预览
点关注,不迷路,用心整理每一篇算法干货~ 后台留言” 交流 “, 加入圆圆算法交流群~ 👇🏻扫码👇🏻 加入 圆圆算法知识星球(11.1价格上调)~ ( 已有 880+ 同学加入学习, 700+ 干货笔记) 今天给大家介绍一篇港中文、上海AI Lab等机构联合发表的CLIP优化工作,构建了基于多专家网络的MoE模型,实现更细粒度的视觉表征器训练,提升下游多模态大模型 论文标题 :CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING 下载地址 : https://arxiv.org/pdf/2409.19291v2 1 背景 基于CLIP的图文对比学习预训练是构建多模态大模型的一个核心基础模块。通过图片和文本的对比学习过程,训练图片和文本的Encoder,能够对齐图片和文本这两个模态的表征。 然而,很多工作都发现,CLIP训练的Encoder,提取的更多是粗粒度的图像信息,例如CLIP的表征会存在
………………………………