专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
目录
今天看啥  ›  专栏  ›  AIWalker

重塑 CLIP模型,jina-clip-v1 统一多模态模型,实现最先进表现 !

AIWalker  · 公众号  ·  · 2024-12-25 22:00
    

文章预览

关注 「 AIWalker 」 并 星标 从此AI不迷路 来源于 AI视界引擎 ,作者 AI 引擎 对比语言-图像预训练(CLIP)被广泛用于训练模型,在共同的嵌入空间中对齐图像和文本,通过将它们映射到固定大小的向量。 这些模型对于多模态信息检索及相关任务至关重要。然而,与专门的文本模型相比,CLIP模型在仅文本任务上通常表现不佳。 这对于在仅文本和多媒体任务中保持分离的嵌入和模型的信息检索系统来说是不高效的。 作者提出了一种新颖的多任务对比训练方法来解决这一问题,作者使用该方法训练jina-clip-v1模型,在文本-图像和文本-文本检索任务上都取得了最先进的表现。 1 Introduction 文本-图像对比训练模型,如CLIP(Radford等人,2021年),通过利用图像及其对应标题的配对,创建了一个图像和文本的对齐表示空间。同样,文本-文本对比训练模型,如jina-e ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览