ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

机器之心 · 公众号 · AI · 2025-07-14 19:33

主要观点总结

本文介绍了一种基于OCR任务识别多模态大模型中的视觉头的方法，提出一种新颖的推理加速方法SparseMM。该方法通过定位视觉头并差异化分配缓存资源，提高了多模态大模型在处理视觉相关任务时的效率和性能。实验结果表明，SparseMM在多个视觉语言任务中表现出卓越的性能，特别是在高分辨率图像和长上下文输入场景下具有显著优势。

关键观点总结

关键观点1: 研究背景

多模态大模型通常是在大型预训练语言模型的基础上扩展而来，虽然原始语言模型不具备视觉理解能力，但经过多模态训练后，这些模型在视觉相关任务中展现出强大的性能。研究团队关注于多模态训练过程中哪些内部结构，尤其是多头注意力单元真正承担了对视觉内容的理解。

关键观点2: 研究方法

研究团队提出了一种基于OCR任务的方法，用于量化每个注意力头对视觉内容的关注程度。通过OCR任务的标注信息，确定字符在图像中的空间位置，并据此分析每个注意力头对视觉内容的敏感度。在此基础上，研究团队还提出了一种基于视觉头的KV-Cache分配与压缩策略，通过差异化的缓存分配机制，最大程度地保留视觉信息，实现性能和速度的更优均衡。

关键观点3: 实验结果

SparseMM在多个视觉语言任务中展现出显著的性能优势，特别是在处理高分辨率图像和长上下文输入场景时，性能下降幅度更小。与传统方法相比，SparseMM在保证模型性能的同时，显著降低了推理阶段的计算和内存开销。

关键观点4: 可视化与总结

研究团队通过可视化一些识别出的视觉头和非视觉头，直观地体现了视觉头和非视觉头的差异性。最后，团队提出了SparseMM方法，为多模态大模型的高效推理与实际部署提供了新的解决思路。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

新智元 · 10项评测痛打GPT-4o！智源重磅开源全球最强具身智能大脑

22 小时前

爱可可-爱生活 · 【[262星]mcp-sequentialthinking-to-20250713180209

昨天

AI前线 · OpenAI首个开源大模型再延期、收购Windsurf失败；Manus “删号跑路”？百川联创离职，创始团队仅剩2人｜AI周报

昨天

新智元 · 2小时入门「个性化联邦学习」，上交清华开源斩获1700+星 | JMLR'25

3 天前

宝玉xp · 转发微博-20250712100158

3 天前

Kevin在纽约 · 「获批956F意味着什么？」最新更新我们#北方中心eb5项目#-20240526173952

1 年前

亿恩 · 跨境圈TRO高发，有亚马逊卖家被索赔200万

8 月前

芯片超人 · ADI、TI、NXP...这些芯片料号近期有涨价！

8 月前

新华网 · 听说现在可以轻松登上泰山了？

5 月前

半岛都市报 · DeepSeek被当成“老中医”？看病只要几十秒，紧急提醒……

4 月前