专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

基础架构竞争激烈,LSTM原作者提出指数门控xLSTM,性能直逼Transformer和Mamba

将门创投  · 公众号  · 科技创业  · 2024-05-23 21:21
经典长短时记忆网络(LSTM)架构最早可以追溯到20世纪90年代,因其独特的常量误差传递(constant error carousel,CEC)和门控(gating)机制而在处理各种时序序列数据任务中展示出了卓越的性能,尤其是在早期的大型语言模型(LLM)中发挥了关键作用。然而,随着Transformer架构的出现,其高度可并行化运行的自注意力机制使得模型可以拓展到更大规模的应用中,导致LSTM的地位逐渐被取代。近日,LSTM的原作者Sepp Hochreiter带队对LSTM框架进行了全新升级,重点针对LSTM缺乏并行处理能力以及在存储容量和灵活性上的缺陷进行了改进,提出了一种称为xLSTM的全新架构。xLSTM提出了两种新的内存单元设计:一种是使用标量内存和标量更新的sLSTM,它引入了新的记忆混合技术;另一种是mLSTM,它使用矩阵内存并能完全并行计算,采用协方差更新规则。作者通过实验证 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照