文章预览
大数据文摘授权转载自将门创投 作者:seven_ 经典长短时记忆网络(LSTM)架构最早可以追溯到20世纪90年代,因其独特的常量误差传递(constant error carousel,CEC)和门控(gating)机制而在处理各种时序序列数据任务中展示出了卓越的性能,尤其是在早期的大型语言模型(LLM)中发挥了关键作用。然而,随着Transformer架构的出现,其高度可并行化运行的自注意力机制使得模型可以拓展到更大规模的应用中,导致LSTM的地位逐渐被取代。 近日,LSTM的原作者Sepp Hochreiter带队对LSTM框架进行了全新升级,重点针对LSTM缺乏并行处理能力以及在存储容量和灵活性上的缺陷进行了改进,提出了一种称为xLSTM的全新架构。xLSTM提出了两种新的内存单元设计:一种是使用标量内存和标量更新的sLSTM,它引入了新的记忆混合技术;另一种是mLSTM,它使用矩阵内存并能完全并行
………………………………