ICLR 2025｜Top3高分论文HyCoCLIP：双曲视觉语言模型的组合蕴涵学习

数据派THU · 公众号 · 大数据 · 2025-05-01 17:00

文章预览

来源：多模态机器学习与大模型 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ 本文共1300字，建议阅读 8 分钟本文提出了一种名为 HyCoCLIP 的新方法。论文链接： https://arxiv.org/pdf/2410.06912 HyCoCLIP 简介 LLM 无法理解视觉和文本概念的固有层次性，因为传统模型（如 CLIP）主要关注欧几里得空间中的整体图像-文本对齐。本文提出了一种名为 HyCoCLIP 的新方法，该方法利用双曲空间（更适合表示层次结构），并引入了一种新颖的组合蕴涵学习方法，该方法同时考虑整个图像-文本对及其组合元素（如对象框及其文本描述）。该方法不仅保留了图像和文本之间更广泛的上下文，而且还通过将更广泛的概念定位在双曲空间的原点附近并将更具体的概念定位在边界附近，保留了组件之间的层次关系（例如，单个对象与整体场景的关系）。这种方法旨在创建一种语义更丰富 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博