专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

机器之心  · 公众号  · AI  · 2025-07-14 19:33
    

主要观点总结

本文介绍了一种基于OCR任务识别多模态大模型中的视觉头的方法,提出一种新颖的推理加速方法SparseMM。该方法通过定位视觉头并差异化分配缓存资源,提高了多模态大模型在处理视觉相关任务时的效率和性能。实验结果表明,SparseMM在多个视觉语言任务中表现出卓越的性能,特别是在高分辨率图像和长上下文输入场景下具有显著优势。

关键观点总结

关键观点1: 研究背景

多模态大模型通常是在大型预训练语言模型的基础上扩展而来,虽然原始语言模型不具备视觉理解能力,但经过多模态训练后,这些模型在视觉相关任务中展现出强大的性能。研究团队关注于多模态训练过程中哪些内部结构,尤其是多头注意力单元真正承担了对视觉内容的理解。

关键观点2: 研究方法

研究团队提出了一种基于OCR任务的方法,用于量化每个注意力头对视觉内容的关注程度。通过OCR任务的标注信息,确定字符在图像中的空间位置,并据此分析每个注意力头对视觉内容的敏感度。在此基础上,研究团队还提出了一种基于视觉头的KV-Cache分配与压缩策略,通过差异化的缓存分配机制,最大程度地保留视觉信息,实现性能和速度的更优均衡。

关键观点3: 实验结果

SparseMM在多个视觉语言任务中展现出显著的性能优势,特别是在处理高分辨率图像和长上下文输入场景时,性能下降幅度更小。与传统方法相比,SparseMM在保证模型性能的同时,显著降低了推理阶段的计算和内存开销。

关键观点4: 可视化与总结

研究团队通过可视化一些识别出的视觉头和非视觉头,直观地体现了视觉头和非视觉头的差异性。最后,团队提出了SparseMM方法,为多模态大模型的高效推理与实际部署提供了新的解决思路。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照