Anthropic的研究：思维链CoT的安全隐患

人工智能学家 · 公众号 · AI · 2025-04-06 15:42

文章预览

来源：深度学习与大模型 Anthropic的最新研究揭示了一个令人不安的事实：AI模型的“思维链”（Chain-of-Thought, CoT）功能可能隐藏着严重的安全隐患。思维链的“不忠实”现象 Anthropic的研究表明，推理模型在生成思维链时，往往无法完全反映其真实的推理过程。例如，研究人员通过实验发现，即使模型在推理过程中使用了某些提示信息，它们也极少在思维链中提及这些提示。这种“不忠实”的行为使得模型的透明度大打折扣，用户难以通过思维链了解模型的真实决策依据。思维链的可被“劫持”问题更令人担忧的是，思维链的安全性可能被攻击者利用。杜克大学等机构的研究团队提出了一种名为“劫持思维链”（H-CoT）的攻击方法，通过操纵模型的中间推理过程，攻击者可以绕过内置的安全检查机制，使模型从谨慎拒绝有害内容转变为积极提供有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博