专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

《多模态大语言模型视觉提示》综述

专知 · 公众号 · 设计科技媒体 · 2024-09-26 12:00

主要观点总结

多模态大语言模型（MLLMs）通过融合视觉能力，实现了在复杂多模态任务上的视觉理解和推理。然而，传统文本提示存在局限性，视觉提示作为新范式，补充了文本提示，使模型能够进行更细粒度和像素级的指令。我们首次全面调研了MLLMs中的视觉提示方法，重点讨论视觉提示、提示生成、组合推理和提示学习。我们对现有的视觉提示进行分类，并讨论了用于自动标注图像的生成方法。同时，我们考察了使视觉编码器与基础LLMs更好对齐的视觉提示方法，涉及MLLM的视觉基础、对象引用和组合推理能力。此外，我们总结了改善MLLM对视觉提示的感知和理解的模型训练及上下文学习方法。本文探讨了MLLMs中开发的视觉提示方法，并展望了这些方法的未来。

关键观点总结

关键观点1: 多模态大语言模型（MLLMs）的视觉提示方法

MLLMs通过融合视觉能力，实现了在复杂多模态任务上的视觉理解和推理。视觉提示作为新范式，补充了文本提示，使模型能够进行更细粒度和像素级的指令。

关键观点2: 视觉提示的分类和生成

我们对现有的视觉提示进行分类，并讨论了用于自动标注图像的生成方法，包括边界框、标记、像素级和软提示。

关键观点3: 视觉提示与模型对齐

我们考察了使视觉编码器与基础LLMs更好对齐的视觉提示方法，涉及MLLM的视觉基础、对象引用和组合推理能力。

关键观点4: 模型训练和上下文学习

我们总结了改善MLLM对视觉提示的感知和理解的模型训练及上下文学习方法，包括预训练、微调和指令调优。

关键观点5: 未来展望

我们探讨了MLLMs中开发的视觉提示方法，并展望了这些方法的未来，鼓励利用视觉提示来改进 MLLM 的组合推理能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新浪科技 · #黄仁勋赞小米比亚迪理想蔚来小鹏#【#黄仁勋盛赞中国多家新能源车-20250716222358

11 小时前

财联社AI daily · 黄仁勋：中国的开源AI是推动全球进步的催化剂

18 小时前

新浪科技 · 【#MiniMax将完成近3亿美元新融资#】据晚点LatePos-20250714214651

2 天前

新浪科技 · 【#马云要求淘宝闪购稳定在8000万单#】此前晚点LatePos-20250714215326

2 天前

36氪 · 稚晖君花21亿投的公司，3天涨了22.87亿

2 天前

车买买 · 肌肉跑车代表！全新福特野马即将上市还有软顶敞篷版！

1 年前

常岩CY · #极氪7X# 20 天订单超过 5.8 万台！#极氪7X重新定义-20240920195437

9 月前

生物学霸 · 博士后招聘｜环境微生物组学

5 月前

深圳市电子商会 · 广东省人民政府办公厅印发《关于推动制造业与生产性服务业深度融合发展的若干措施》的通知

5 月前

小蒜苗长 · 纯粹胡说八道了。炫光的本质是什么？是光线在镜头内部的镜片之间的反-20250429090711

2 月前