OpenAI超级对齐分崩离析，最强对手Anthropic安全工作成效几何？| 追问观察

追问nextquestion · 公众号 · · 2024-05-28 17:43

文章预览

对AI安全性的担忧挥之不去。去年美国一项民意调查显示，83%的受访者担心人工智能可能导致灾难性后果，而82%的受访者支持放缓AI研发节奏，以延缓通用人工智能的实现。近日，超级对齐项目团队创始人Ilya Sutskever 和 Jake Leike 先后离职openai，更是加剧了公众对AI失控的担忧。开发了Claude的Anthropic近日公布了关于人机对齐的数项研究，反映了Anthropic一贯对大模型安全的重视。本文将回顾Claude的数项往前研究，希望呈现学界为创建更安全、更可操作、更可靠的模型而做出的努力。 AI不止会欺骗，还善于奉承基于人类反馈的强化学习（RLHF）是一种用于训练高质量 AI 助手的通用技术。然而，RLHF也可能鼓励模型给出与用户信念相符的回答，而非真实的回答，这种行为被称为“阿谀奉承”。23年的一项研究 [1] 证明了五个当时最先进的人工智能助手在四个不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博