突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

机器之心 · 公众号 · AI · 2025-07-21 12:04

主要观点总结

本文介绍了复旦大学和南洋理工大学S-Lab的研究者针对多模态大模型在处理高分辨率图像时面临的挑战，提出了一种基于视觉Grounding的多轮强化学习方法MGPO。MGPO使LMM能够在多轮交互中根据问题自动预测关键区域坐标，裁剪子图像并整合历史上下文，实现高分辨率图像的精准推理。该方法模拟人类的多步视觉推理过程，并通过固定两轮对话模板解决模型的冷启动问题。实验结果表明，MGPO在解决高分辨率图像任务时效果显著，无需额外的Grounding标注即可涌现出鲁棒的视觉Grounding能力。

关键观点总结

关键观点1: 研究背景与问题

多模态大模型在处理高分辨率图像时面临挑战，包括计算负担重和关键信息丢失。

关键观点2: 解决方案与MGPO方法

提出基于视觉Grounding的多轮强化学习方法MGPO，模拟人类的多步视觉推理过程，使模型能够自动预测关键区域坐标，裁剪子图像并整合上下文。

关键观点3: 核心创新点

MGPO的核心创新点包括自上而下的可解释视觉推理、突破最大像素限制和无需额外Grounding标注的能力。

关键观点4: 实验结果

实验结果表明，MGPO在处理高分辨率图像任务时效果显著，提高了模型性能。与现有方法相比，MGPO具有显著优势，且实验证明了其不需要额外的Grounding标注即可涌现出鲁棒的视觉Grounding能力。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · [LG]《A Learning-based Domain Dec-20250725061110

13 小时前

AI产品阿颖 · Qwen3 这波更新真猛，一下子成了全球最强编程模型

昨天

宝玉xp · 回复@昵称不确定:一个普通AI产品用了很多token要被骂，一个-20250723041914

2 天前

爱可可-爱生活 · 《爱可可微博热门分享(7.22)》爱可可微博热门分享(7.2-20250722223517

2 天前

爱可可-爱生活 · pad.ws：浏览器中的白板即开发环境，重塑可视化与编码协同方式-20250722201837

2 天前

新浪科技 · 【#外国使节称中国先进核能技术将帮助他国#】7月4日，十余国的常-20240707180608

1 年前

IDC咨询 · 场景化需求增长——IDC 2023年中国医疗云IaaS+PaaS市场份额报告发布

10 月前

化工707 · 裁员1800人！又一化工巨头宣布：关厂、卖资产！

9 月前

财宝宝 · 四级杭，就是原来的学校储蓄所。三级杭，就是城关镇农贸市场厕所旁边-20241021085410

9 月前

腾远高考题型 · 高考必备图书！收藏起来偷偷学

8 月前