RNN神经网络-LSTM模型结构

1. RNN神经网络模型原理2. RNN神经网络模型的不同结构3. RNN神经网络-LSTM模型结构

酒酿小圆子～

2145人浏览 · 2020-06-09 09:17:56

酒酿小圆子～ · 2020-06-09 09:17:56 发布

预备知识：

1. RNN神经网络模型原理

2. RNN神经网络模型的不同结构

3. RNN神经网络-LSTM模型结构

文章目录

1. 前言

之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据。大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

2. LSTM模型结构

我们先看下LSTM的整体结构。
在这里插入图片描述
由于RNN梯度消失的问题，大牛们对于序列索引位置t的隐藏结构做了改进，可以说通过一些技巧让隐藏结构复杂了起来，来避免梯度消失的问题，这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种，这里我们以最常见的LSTM为例讲述。

2.1 细胞状态

在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态 $h t$ ，还多了另一个隐藏状态，如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State)，记为 $Ct$ 。如下图所示：
在这里插入图片描述

2.2 LSTM之遗忘门

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态，并且以某种方式避免梯度随时间反向传播时引发的梯度消失和梯度爆炸的问题。遗忘门子结构如下图所示：

在这里插入图片描述
图中输入的有上一序列的隐藏状态 $h_{t−1}$ 和本序列数据 $x_t$ ，通过一个激活函数，一般是 $s i g m o i d$ ，得到遗忘门的输出 $f_t$ 。由于 $s i g m o i d$ 的输出 $f_t$ 在[0,1]之间，因此这里的输出ft代表了遗忘上一层隐藏细胞状态的概率。用数学表达式即为：
在这里插入图片描述
其中 $W_f$ , $U_f$ , $b_f$ 为线性关系的系数和偏倚，和RNN中的类似。σ为sigmoid激活函数。

2.3 LSTM之输入门

输入门（input gate）负责处理当前序列位置的输入，用于控制当前输入数据流入记忆单元的多少，即有多少输入信息可以保存到细胞状态中。它的子结构如下图：
在这里插入图片描述
从图中可以看到输入门由两部分组成，第一部分使用了 $s i g m o i d$ 激活函数，输出为it第二部分使用了 $t anh$ 激活函数，输出为 $a_t$ ,两者的结果后面会相乘再去更新细胞状态。用数学表达式即为：

其中 $W_i$ , $U_i$ , $b_i$ , $W_a$ , $U_a$ , $b_a$ 为线性关系的系数和偏倚，和RNN中的类似。σ为sigmoid激活函数。

2.4 LSTM之细胞状态更新

在研究LSTM输出门之前，我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态 $C_t$ 。我们来看看从细胞状态 $C_{t−1}$ 如何得到 $C_t$ 。如下图所示：
在这里插入图片描述
细胞状态 $C_t$ 由两部分组成，第一部分是 $C_{t−1}$ 和遗忘门输出ft的乘积，第二部分是输入门的 $i_t$ 和 $a_t$ 的乘积，即：

2.5 LSTM之输出门

有了新的隐藏细胞状态 $C_t$ ，我们就可以来看输出门了，子结构如下：
在这里插入图片描述
从图中可以看出，隐藏状态ht的更新由两部分组成，第一部分是 $o_t$ ,它由上一序列的隐藏状态 $h_{t−1}$ 和本序列数据 $x_t$ ，以及激活函数 $s i g m o i d$ 得到，第二部分由隐藏状态 $C_t$ 和 $t anh$ 激活函数组成, 即：
在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r