文章预览
来源:多模态机器学习与大模型 本文 共1300字 ,建议阅读 8 分钟 本文提出了一种名为 HyCoCLIP 的新方法。 论文链接: https://arxiv.org/pdf/2410.06912 HyCoCLIP 简介 LLM 无法理解视觉和文本概念的固有层次性,因为传统模型(如 CLIP)主要关注欧几里得空间中的整体图像-文本对齐。本文提出了一种名为 HyCoCLIP 的新方法,该方法利用双曲空间(更适合表示层次结构),并引入了一种新颖的组合蕴涵学习方法,该方法同时考虑整个图像-文本对及其组合元素(如对象框及其文本描述)。 该方法不仅保留了图像和文本之间更广泛的上下文,而且还通过将更广泛的概念定位在双曲空间的原点附近并将更具体的概念定位在边界附近,保留了组件之间的层次关系(例如,单个对象与整体场景的关系)。这种方法旨在创建一种语义更丰富
………………………………