OpenAI 发布新作，揭秘 chatgpt 系统提示为何能够有效防止越狱 | LLM 偏好微调不同方法的利弊研究

AIforResearch · 公众号 · · 2024-04-23 23:59

前言：看论文就像是一次美食之旅，每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐，有些论文会让你欲罢不能，而有些论文则会让你咬牙切齿。但是别忘了，只有尝试了各种不同的菜肴，才能成为一个真正的“吃货”哦！1. 训练LLMs优先考虑特权指令标题：The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions 机构：OpenAI 关键词：LLMs、指令层次结构、鲁棒性、数据生成作者：Eric Wallace, Kai Xiao, Reimar Leike 分析：作者在本文中讨论了当前LLMs容易受到提示注入、越狱和其他攻击的问题，这些攻击使对手可以用恶意提示覆盖模型的原始指令。作者认为这些攻击背后的主要漏洞之一是LLMs经常将系统提示与不受信任的用户和第三方的文本视为同等优先级。为了解决这个问题，作者提出了一个指令层次结构，明确定义了当不同优先 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博