专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
今天看啥  ›  专栏  ›  PaperWeekly

ICML 2025 | 又快又强的狮虎兽!仅20M词元微调,Transformer秒切线性RNN

PaperWeekly  · 公众号  · 科研  · 2025-05-27 13:41
    

文章预览

近日上海 AI Lab 联合华南理工大学、香港科技大学(广州)、南京大学和香港中文大学发布了他们的一项研究成果:Liger(狮虎兽),即  Li nearizing LLMs to  g at e d  r ecurrent structures,这是一个能够高效地将预训练大语言模型架构转换为带有门控循环结构的线性模型的线性化技术。 目前本研究工作已被 ICML 2025 接收,代码模型已全部开源。 论文标题 : Liger: Linearizing Large Language Models to Gated Recurrent Structures 论文链接 : https://arxiv.org/abs/2503.01496 代码链接 : https://github.com/OpenSparseLLMs/Linearization 模型链接: https://huggingface.co/collections/linear-moe-hub/liger-67d904bffd7f9b77ade7747d 大语言模型(Llama、Mistral等)在各种序列建模任务上取得了很好的表现,特别是基于 Transformer 架构的大语言模型已经被广泛验证了其序列建模任务的有效性,然而这种架构也面临着它的固有缺 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览