揭秘多轮越狱攻击新框架：RACE 如何利用大模型推理能力突破安全防线？

AI科技评论 · 公众号 · · 2025-02-21 18:42

文章预览

北航等单位提出RACE框架，攻击成功率高达96%，OpenAI、DeepSeek等主流模型均被攻破。本文一作为博士生应宗浩，现就读于北航复杂关键软件环境全国重点实验室，师从陶大程教授与刘祥龙教授，并由刘艾杉教授共同指导，目前研究兴趣为大模型越狱攻防。他所在的智能安全团队由刘祥龙教授负责，近年在大模型安全评测体系方面进行了系列研究工作,包括对抗攻击、后门投毒、越狱攻击、偏见调控等,发表TPAMI、IJCV、ICML、NeurIPS、USENIX等人工智能、信息安全领域顶级论文100余篇。大模型（LLMs）的推理能力在各类任务中表现出色，但这也为越狱攻击提供了新的突破口。近日，来自北京航空航天大学、360 AI安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为RACE（Reasoning-Augmented Conversation）的多轮越狱攻击框架，通过将有害查询转化为良 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博