吴恩达深度学习-序列模型 1.10 LSTM长短期记忆网络

prophet__ · 简书 · · 2020-01-31 20:55

我们刚刚学习完了GRU，除了GRU之外，还有另外一种在RNN里很常见的模型方案，叫做LSTM（长短期记忆网络）。

对比与GRU，LSTM是一个更通用且更强大的版本，他们的不同首先在于在LSTM当中，at不一定等于ct，因此Ct~的赋值式就要进行更改。同时，在通用版本的LSTM当中也不存在GAMMAr这种参数。取而代之的是一个GAMMAf，f代表的是forget，也就是遗忘门。

所以在对Ct赋值的过程里，不止使用到的是GAMMAu，还有GAMMAf，和GAMMAo（output输出门）。GAMMAf控制的是对上一层的Ct-1在这一层的继承情况，GAMMAo控制的是这一层计算好了的Ct对At的输出情况。

我们再尝试把它可视化一下，总之这里包括了3个门，类似于一个逻辑电路，对从上一层的输出At-1进行计算之后得到一个新的At。

我们可以在这里看到一条红色的线，代表了C在整个过程当中的变化，只要我们对遗忘和更新的设定比较合理，它就能保持一个长期的稳定性和记忆能力。

除了这种非常通用的模型之外，也有一些人会使用peephole窥视孔的方法，也就是把Ct-1的值加入到GAMMAo的计算当中，通过学习上一次的Ct-1值来计算GAMMAo。

重点

在整个过程当中，所有的C当中的向量不同维度之间是不相关的，是1v1的形式呈现的，每一个向量控制的都是自己的记忆值。

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

中国上海国际艺术节 · 向美而行，以美育城——还能在哪里听到“柏林爱乐在上海”的声音？

2 天前

金乡大蒜辣椒国际交易市场 · 2024年6月10日金乡大蒜国际交易市场大蒜行情

3 天前

康石石 · 被港理秒录的秘诀我悟到了......

3 天前

艺术世界ArtReview · K11 × ArtReview 驻留计划第三批艺术家近况

5 天前

康石石 · 拼搏三年保研，面试时：你这些竞赛我们不认

6 天前

人工智能与网络空间治理 · 中国互联网协会就《数据确权风险控制通则》（征求意见稿）公开征求意见

10 月前

巧克力蛋挞布丁 · 2021-09-13 成年人的友谊

2 年前

杭州楼市365 · 北辰19.3亿首入富阳，限精装均价22000元/㎡！楼盘齐聚，富春楼市“号角”吹响！

3 年前

德慧智 · 德慧智家装文化赏析

3 年前

武哥聊编程 · 阿里巴巴的26款超神Java开源项目！

5 年前