今天看啥  ›  专栏  ›  追问nextquestion

OpenAI超级对齐分崩离析,最强对手Anthropic安全工作成效几何?| 追问观察

追问nextquestion  · 公众号  ·  · 2024-05-28 17:43
    

文章预览

对AI安全性的担忧挥之不去。去年美国一项民意调查显示,83%的受访者担心人工智能可能导致灾难性后果,而82%的受访者支持放缓AI研发节奏,以延缓通用人工智能的实现。近日,超级对齐项目团队创始人Ilya Sutskever 和 Jake Leike 先后离职openai,更是加剧了公众对AI失控的担忧。 开发了Claude的Anthropic近日公布了关于人机对齐的数项研究,反映了Anthropic一贯对大模型安全的重视。本文将回顾Claude的数项往前研究,希望呈现学界为创建更安全、更可操作、更可靠的模型而做出的努力。 AI不止会欺骗,还善于奉承 基于人类反馈的强化学习(RLHF)是一种用于训练高质量 AI 助手的通用技术。然而,RLHF也可能鼓励模型给出与用户信念相符的回答,而非真实的回答,这种行为被称为“阿谀奉承”。23年的一项研究 [1] 证明了五个当时最先进的人工智能助手在四个不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览