专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

本文颠覆性地提出,在LLM预训练中包含适量的“坏”数据(如毒性内-20250510055059

爱可可-爱生活  · 微博  · AI  · 2025-05-10 05:50
    

文章预览

2025-05-10 05:50 本条微博链接 本文颠覆性地提出,在LLM预训练中包含适量的“坏”数据(如毒性内容),反而能促使模型形成对该概念更清晰、更少纠缠的内部线性表征,从而在后续结合推理时干预(ITI)等对齐技术后,能以更小的通用能力代价实现更有效的毒性控制,最终达成“坏数据造就好模型”的反直觉效果。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览