今天看啥  ›  专栏  ›  机器之心

视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知

机器之心  · 公众号  · AI  · 2025-04-03 11:06
    

主要观点总结

这篇文章介绍了视觉自监督学习(SSL)在多模态建模中的表现,尤其是与语言图像预训练(CLIP)的对比。研究者探讨了语言监督对于多模态建模的视觉表征预训练是否必要的问题,并通过实验证明视觉SSL可以在广泛的VQA任务中匹配甚至超越CLIP。文章还介绍了实验设置、模型扩展、性能评估以及对模型和数据大小扩展的探讨。

关键观点总结

关键观点1: 视觉自监督学习(SSL)与语言图像预训练(CLIP)的对比。

SSL模型在视觉任务上的表现逐渐接近甚至超越CLIP,特别是在OCR和Chart VQA等语言相关任务上。

关键观点2: 视觉SSL在模型和数据大小方面的扩展性。

视觉SSL在模型容量和数据方面的扩展性表明其还有巨大的潜力。研究者通过实证研究发现,随着模型和数据规模的增加,视觉SSL学习到的特征对VQA任务越来越有效。

关键观点3: 视觉SSL模型的性能评估。

研究者使用视觉问题解答(VQA)作为框架,评估了SSL模型的各种能力。实验结果表明,Web-DINO模型在VQA任务上的表现优于现有的CLIP模型和视觉SSL方法。


文章预览

机器之心报道 编辑:蛋酱、杜伟 扩展无语言的视觉表征学习。 在视觉问题解答(VQA)等多模态环境中,当前视觉自监督学习(SSL)的表现还比不上语言图像预训练(CLIP)。这种差距通常归因于语言监督引入的语义,尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。 在最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个基本问题: 语言监督对于多模态建模的视觉表征预训练是否必要? 论文标题:Scaling Language-Free Visual Representation Learning 论文链接:https://arxiv.org/pdf/2504.01017 项目地址:https://davidfan.io/webssl/ 「我们的目的不是要取代语言监督方法,而是要了解视觉自监督在多模态应用中的内在能力和局限性。为了进行公平的比较,我们在与最先进的 CLIP 模型相同的数十亿规模的网络数据(特别是 MetaCLIP 数据集)上训练 SSL 模型。在比较 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览