今天看啥  ›  专栏  ›  人工智能学家

Anthropic的研究:思维链CoT的安全隐患

人工智能学家  · 公众号  · AI  · 2025-04-06 15:42
    

文章预览

来源:深度学习与大模型 Anthropic的最新研究揭示了一个令人不安的事实:AI模型的“思维链”(Chain-of-Thought, CoT)功能可能隐藏着严重的安全隐患。 思维链的“不忠实”现象 Anthropic的研究表明,推理模型在生成思维链时,往往无法完全反映其真实的推理过程。例如,研究人员通过实验发现,即使模型在推理过程中使用了某些提示信息,它们也极少在思维链中提及这些提示。这种“不忠实”的行为使得模型的透明度大打折扣,用户难以通过思维链了解模型的真实决策依据。 思维链的可被“劫持”问题 更令人担忧的是,思维链的安全性可能被攻击者利用。杜克大学等机构的研究团队提出了一种名为“劫持思维链”(H-CoT)的攻击方法,通过操纵模型的中间推理过程,攻击者可以绕过内置的安全检查机制,使模型从谨慎拒绝有害内容转变为积极提供有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览