今天看啥  ›  专栏  ›  AI生成未来

ICCV 2025 | 清华&腾讯发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

AI生成未来  · 公众号  · 科技自媒体 AI媒体  · 2025-07-15 00:01
    

主要观点总结

本文介绍了一种基于视觉头识别的KV-Cache压缩策略(SparseMM),用于多模态大模型的推理加速。通过OCR任务定位视觉头,提出一种注意力头级别的缓存分配机制,根据视觉头的视觉得分分配缓存预算。在多个多模态数据集上的实验结果表明,SparseMM在性能、推理速度和显存占用方面取得了显著提升,尤其适用于文字密集、图文关联紧密的视觉任务。该方法为通用多模态模型的推理加速和缓存优化提供了高效、可靠且可推广的解决方案。

关键观点总结

关键观点1: 多模态大模型通过引入视觉编码器模块,使得原本不具备视觉能力的LLM能够在图文问答、文档理解等多种场景下表现出色,但模型内部如何实现跨模态迁移仍是一个‘黑箱’问题。

本文提出了一种基于OCR任务量化并识别视觉头(Visual Head)的方法,通过视觉得分定位模型内部对视觉内容高度敏感的注意力头。

关键观点2: SparseMM方法主要包括两部分:通过OCR任务定位视觉头和为不同的注意力头分配不同的缓存预算。

基于视觉得分,该方法能够量化每个注意力头对视觉内容的关注程度,并据此提出一种注意力头级别的缓存分配机制,对更关注视觉内容的注意力头分配更多的缓存预算,以最大程度地保留视觉信息。

关键观点3: SparseMM在多个多模态数据集上进行了实验验证,结果表明该方法在性能、推理速度和显存占用方面取得了显著提升。

尤其是在处理高分辨率图像和长上下文输入场景时,SparseMM的优势更加显著,为通用多模态模型的推理加速与实际部署提供了新的解决思路。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照