今天看啥  ›  专栏  ›  读懂财经

“浓眉大眼”的AI,也学会骗人了?

读懂财经  · 公众号  · 财经  · 2024-01-18 19:00
自打ChatGPT横空出世以来,有一个问题始终萦绕在很多人的心里:万一有一天AI变坏了怎么办?从目前看,这样的担心并非毫无根据。最近,Anthropic的研究人员共同发布了一项研究,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。即便在后期进行安全训练也很难消除。正如Anthropic所说,我们已经尽了最大努力,但模型的欺骗行为还在发生。用OpenAI科学家Karpathy的话说,仅仅通过应用当前标准的安全微调措施,是无法确保模型安全的。当行业所有的注意力都放在AGI终极目标的时候,AI安全就像一条暗线,随着模型更迭而不断延伸。如果说先进的AI更像是给现有生产力加杠杆,那么其所带来的混乱也必然是远超预期。不过好在,头部AI公司也都在纷纷加大AI安全的研究。根据最新消息 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照