今天看啥  ›  专栏  ›  李rumor

清华CPT:基于预训练视觉-语言模型的跨模态Prompt-Tuning

李rumor  · 公众号  ·  · 2021-10-15 09:18
每天给你送来NLP技术干货!论文:CPT:Colorful Prompt Tuning for Pre-Training Vision-Language Models状态:Work in Progress单位:清华大学、新加坡国立大学链接:https://arxiv.org/pdf/2109.11797.pdf提取摘要预训练的视觉语言模型 (VL-PTMs) 在将自然语言融入图像数据中显示出有前景的能力,促进了各种跨模态任务。然而,作者注意到模型pre-training和finetune的客观形式之间存在显着差距,导致需要大量标记数据来刺激 VL-PTMs 对下游任务的视觉基础能力。为了应对这一挑战,本文提出了跨模态提示调优Cross-modal Prompt Tuning(CPT,或者,彩色-Color提示调优),这是一种用于finetune VL-PTMs 的新范式,它在图像和文本中使用基于颜色的共同参照标记重新构建了视觉定位问题,使之成为一个填空问题,最大限 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照