文章预览
对AI安全性的担忧挥之不去。去年美国一项民意调查显示,83%的受访者担心人工智能可能导致灾难性后果,而82%的受访者支持放缓AI研发节奏,以延缓通用人工智能的实现。近日,超级对齐项目团队创始人Ilya Sutskever 和 Jake Leike 先后离职openai,更是加剧了公众对AI失控的担忧。 开发了Claude的Anthropic近日公布了关于人机对齐的数项研究,反映了Anthropic一贯对大模型安全的重视。本文将回顾Claude的数项往前研究,希望呈现学界为创建更安全、更可操作、更可靠的模型而做出的努力。 AI不止会欺骗,还善于奉承 基于人类反馈的强化学习(RLHF)是一种用于训练高质量 AI 助手的通用技术。然而,RLHF也可能鼓励模型给出与用户信念相符的回答,而非真实的回答,这种行为被称为“阿谀奉承”。23年的一项研究 [1] 证明了五个当时最先进的人工智能助手在四个不
………………………………