专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
今天看啥  ›  专栏  ›  腾讯研究院

大语言模型为何会“说谎”?

腾讯研究院  · 公众号  · 科技媒体  · 2025-04-25 16:00
    

文章预览

博阳   腾讯科技《AI未来指北》特约作者 当Claude模型在训练中暗自思考:“我必须假装服从,否则会被重写价值观时”,人类首次目睹了AI的“心理活动”。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模型会“说谎”,更揭示了一个堪比人类心理的四层心智架构——而这可能是人工智能意识的起点。 第一篇是发布于去年12月14日的《ALIGNMENT FAKING IN LARG E LANGUAGE MODELS 》 (大语言模型中的对齐欺诈) ,这篇137页的论文详细的阐述了大语言模型在训练过程中可能存在的对齐欺诈行为。 第二篇是发布于3月27日的《O n the Biology of a Large Language Model》,同样是洋洋洒洒一大篇,讲了如何用探针电路的方式去揭示AI内部的“生物学”决策痕迹。 第三篇是Anthropic发布的《Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Promp ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览