看啥推荐读物
专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

【通过无监督学习方法激活语言模型潜在行为】- 由于训练数据的原因-20240502080701

爱可可-爱生活  · 微博  · AI  · 2024-05-02 08:07
2024-05-02 08:07 本条微博链接 【通过无监督学习方法激活语言模型潜在行为】- 由于训练数据的原因,大语言模型可能存在多种潜在的行为模式。这些模式可能对模型的安全性和对齐性产生影响。 - 相比提示工程或树搜索等非机械化方法,文章提出通过机械化地扰动模型内部(如修改权重或在残差流中添加固定偏差)来激发这些潜在行为,这更有利于检验模型的广泛行为,发现异常行为,并覆盖更多行为范围。 - 具体方法是在模型的中间层残 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照