看啥推荐读物
专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

CVPR 2024 | REAL:检索增强提升zero-shot性能,深挖视觉语言模型中的长尾分布现象

将门创投  · 公众号  · 科技创业  · 2024-04-28 08:22
以CLIP为代表的视觉语言大模型(VLMs)在zero-shot识别等领域表现出了优异的性能,这改变了很多下游任务的学习范式,研究者们纷纷尝试如何将VLMs集成到现有的框架中来提高下游性能。虽然CLIP在ImageNet等代表性数据集达到了较高的准确率,但是其不可避免的出现了长尾数据识别较差的现象。例如对于“night snake”等十多个长尾类别,模型的识别准确率下降到10%以下。本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的论文,本文系统的对VLMs中的长尾概念分布问题进行了分析,并通过使用大型语言模型(LLMs)来对VLMs预训练数据集中的概念频率进行测量。作者通过实验发现,目前流行的VLM数据集(例如LAION)存在严重的长尾分布情况,这导致VLM的下游应用,例如视觉聊天机器人(例如 GPT-4V)和文本到图像生成模型(例如stable diffusion)均存在无法识别 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照