基础架构竞争激烈，LSTM原作者提出指数门控xLSTM，性能直逼Transformer和Mamba

大数据文摘 · 公众号 · 大数据 · 2024-05-25 12:08

文章预览

大数据文摘授权转载自将门创投作者：seven_ 经典长短时记忆网络（LSTM）架构最早可以追溯到20世纪90年代，因其独特的常量误差传递（constant error carousel，CEC）和门控（gating）机制而在处理各种时序序列数据任务中展示出了卓越的性能，尤其是在早期的大型语言模型（LLM）中发挥了关键作用。然而，随着Transformer架构的出现，其高度可并行化运行的自注意力机制使得模型可以拓展到更大规模的应用中，导致LSTM的地位逐渐被取代。近日，LSTM的原作者Sepp Hochreiter带队对LSTM框架进行了全新升级，重点针对LSTM缺乏并行处理能力以及在存储容量和灵活性上的缺陷进行了改进，提出了一种称为xLSTM的全新架构。xLSTM提出了两种新的内存单元设计：一种是使用标量内存和标量更新的sLSTM，它引入了新的记忆混合技术；另一种是mLSTM，它使用矩阵内存并能完全并行 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

体外诊断价值圈 · 4款IVD产品拟获NMPA优先审批

9 月前

爱可可-爱生活 · 提出机器学习方法预测多行星系统碰撞结果，构建巨型碰撞仿真器，相比-20240825053009

9 月前

宝玉xp · 上次我分享了《简单有效的将音频转成各式良好对话文本的方案》网页链-20250116083459

4 月前

潇湘晨报 · 崩了！官方凌晨再次致歉：补偿方案公布

2 月前

房地产广告精选 · 泉州润比邻发布小会参与有感

2 月前