专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
TodayRss-海外稳定RSS
目录
今天看啥  ›  专栏  ›  机器之心

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

机器之心  · 公众号  · AI  · 2025-11-24 15:24
    

主要观点总结

清华大学人工智能学院团队提出了DAVSP(Deep Aligned Visual Safety Prompt),这是一种新的安全对齐方法,旨在提升大型视觉语言模型对恶意输入的抵御效果。该方法在几乎不破坏模型正常能力的前提下,有效提高了模型对带有隐蔽恶意意图的图像-文本输入的抵御能力。

关键观点总结

关键观点1: 研究背景与问题

大型视觉语言模型(LVLMs)在多模态任务中表现出色,但安全隐患正迅速显现。攻击者可以将恶意意图隐蔽地嵌入图像中,使模型输出有害内容。因此,如何增强LVLMs对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题。

关键观点2: 现有方法的局限性

现有的轻量级安全对齐方案具有一定的局限性,如安全性不足、性能损害明显等。直接在图像像素上叠加噪声会扰乱图像的关键视觉特征,影响模型的性能。仅依据模型最终输出是否安全来训练扰动属于浅层的对齐,模型可能学到表面模式而非真正的安全准则。

关键观点3: DAVSP的方法与创新

DAVSP从视觉提示范式和训练对齐机制两方面同时创新,以克服以往方法的局限性。其核心思想是提出视觉安全提示(VSP)来取代传统的图像全局扰动,并设计深度对齐(DA)的训练策略,让模型从内部真正理解何为「不安全」输入。

关键观点4: 视觉安全提示(VSP)

VSP选择在输入图像周围添加一圈额外的可训练边框作为安全提示区域。这样做有两大好处:保护原始视觉特征和扩大优化空间。

关键观点5: 深度对齐(DA)

深度对齐旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对「有害 / 无害」信息的区分能力。通过构建有害向量和深度对齐训练,促使模型从内部真正认知到哪些输入是不安全的。

关键观点6: 实验结果

DAVSP在多个基准上的评估结果显示,其在抵御恶意攻击和保持模型实用性两方面均显著优于现有方案。恶意输入抵御能力强大,对良性任务性能影响微小,且具有一定的跨模型泛化能力。

关键观点7: 团队介绍

该研究由清华大学人工智能学院团队完成,通讯作者是李佳助理教授,主要研究方包括人工智能和软件工程的交叉赋能、AI for SE、SE for AI等。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照