专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

Transformer其实是线性的? | SirLLM: 流式无限记忆LLM | SPO: 多维偏好序列对齐与隐式奖励建模...

AI for Research  · 公众号  ·  · 2024-05-22 17:58
    

文章预览

前言: 看论文就像是一次美食之旅,每一篇论文都是一道不同的菜肴。有些论文会让你大快朵颐,有些论文会让你欲罢不能,而有些论文则会让你咬牙切齿。但是别忘了,只有尝试了各种不同的菜肴,才能成为一个真正的“吃货”哦! 1. Transformer其实是线性的   标题: Your Transformer is Secretly Linear   关键词: transformer、线性特征、模型性能、正则化   作者: Anton Razzhigaev,  Matvey Mikhalchuk,  Elizaveta Goncharova   分析: 作者揭示了transformer解码器独有的线性特征,包括GPT、LLaMA、OPT、BLOOM等模型。作者分析了顺序层之间的嵌入转换,发现了近乎完美的线性关系(Procrustes相似度得分为0.99)。然而,当去除残差部分时,由于transformer层的输出范数一直很低,线性度会降低。作者的实验表明,去除或线性逼近某些最线性的transformer块并不显著影响损失或模型性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览