专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

机器之心  · 公众号  · AI  · 2025-07-21 12:04
    

主要观点总结

本文介绍了复旦大学和南洋理工大学S-Lab的研究者针对多模态大模型在处理高分辨率图像时面临的挑战,提出了一种基于视觉Grounding的多轮强化学习方法MGPO。MGPO使LMM能够在多轮交互中根据问题自动预测关键区域坐标,裁剪子图像并整合历史上下文,实现高分辨率图像的精准推理。该方法模拟人类的多步视觉推理过程,并通过固定两轮对话模板解决模型的冷启动问题。实验结果表明,MGPO在解决高分辨率图像任务时效果显著,无需额外的Grounding标注即可涌现出鲁棒的视觉Grounding能力。

关键观点总结

关键观点1: 研究背景与问题

多模态大模型在处理高分辨率图像时面临挑战,包括计算负担重和关键信息丢失。

关键观点2: 解决方案与MGPO方法

提出基于视觉Grounding的多轮强化学习方法MGPO,模拟人类的多步视觉推理过程,使模型能够自动预测关键区域坐标,裁剪子图像并整合上下文。

关键观点3: 核心创新点

MGPO的核心创新点包括自上而下的可解释视觉推理、突破最大像素限制和无需额外Grounding标注的能力。

关键观点4: 实验结果

实验结果表明,MGPO在处理高分辨率图像任务时效果显著,提高了模型性能。与现有方法相比,MGPO具有显著优势,且实验证明了其不需要额外的Grounding标注即可涌现出鲁棒的视觉Grounding能力。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照