今天看啥  ›  专栏  ›  AIforResearch

OpenAI 发布新作,揭秘 chatgpt 系统提示为何能够有效防止越狱 | LLM 偏好微调不同方法的利弊研究

AIforResearch  · 公众号  ·  · 2024-04-23 23:59
前言:看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦!1. 训练LLMs优先考虑特权指令  标题:The Instruction Hierarchy: Training LLMs to Prioritize Privileged  Instructions  机构:OpenAI  关键词:LLMs、指令层次结构、鲁棒性、数据生成  作者:Eric Wallace, Kai Xiao, Reimar Leike  分析:作者在本文中讨论了当前LLMs容易受到提示注入、越狱和其他攻击的问题,这些攻击使对手可以用恶意提示覆盖模型的原始指令。作者认为这些攻击背后的主要漏洞之一是LLMs经常将系统提示与不受信任的用户和第三方的文本视为同等优先级。为了解决这个问题,作者提出了一个指令层次结构,明确定义了当不同优先 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照