深度循环神经网络 DRNN

转载自:《动手学深度学习》(PyTorch版) 6.9 深度循环神经网络github：https://github.com/ShusenTang/Dive-into-DL-PyTorch6.9 深度循环神经网络在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。图6.11演示了一个有 LLL 个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当

ywm_up

833人浏览 · 2021-08-30 15:37:53

ywm_up · 2021-08-30 15:37:53 发布

转载自:
《动手学深度学习》(PyTorch版) 6.9 深度循环神经网络
 github：https://github.com/ShusenTang/Dive-into-DL-PyTorch

深度循环神经网络

在深度学习应用里，我们通常会用到含有多个隐藏层的循环神经网络，也称作深度循环神经网络。图6.11演示了一个有 $L$ 个隐藏层的深度循环神经网络，每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。
请添加图片描述
具体来说, 在时间步 $t$ 里, 设小批量输入 $\boldsymbol{X}_{t} \in \mathbb{R}^{n \times d}$ (样本数为 $n$ , 输入个数为 $\left.d\right)$ , 第 $\ell$ 隐藏层 $(\ell=1, \ldots, L)$ 的隐藏状态为 $\boldsymbol{H}_{t}^{(\ell)} \in \mathbb{R}^{n \times h}$ (隐藏单元个数为 $h$ )，输出层变量为 $O_{t} \in \mathbb{R}^{n \times q}$ (输出个数为 $\left.q\right)$ , 且隐藏层的激活函数为 $\phi_{\circ}$ 第1隐藏层的隐藏状态和之前的计算一样:
$\boldsymbol{H}_{t}^{(1)}=\phi\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x h}^{(1)}+\boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{h h}^{(1)}+\boldsymbol{b}_{h}^{(1)}\right)$

其中权重 $\boldsymbol{W}_{x h}^{(1)} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{h h}^{(1)} \in \mathbb{R}^{h \times h}$ 和偏差 $\boldsymbol{b}_{h}^{(1)} \in \mathbb{R}^{1 \times h}$ 分别为第1隐藏层的模型参数。

当 $1<\ell \leq L$ 时，第 $\ell$ 隐藏层的隐藏状态的表达式为
$\boldsymbol{H}_{t}^{(\ell)}=\phi\left(\boldsymbol{H}_{t}^{(\ell-1)} \boldsymbol{W}_{x h}^{(\ell)}+\boldsymbol{H}_{t-1}^{(\ell)} \boldsymbol{W}_{h h}^{(\ell)}+\boldsymbol{b}_{h}^{(\ell)}\right)$

最终，输出层的输出只需基于第 $L$ 隐藏层的隐藏状态：
$\boldsymbol{O}_{t}=\boldsymbol{H}_{t}^{(L)} \boldsymbol{W}_{h q}+\boldsymbol{b}_{q}$
其中权重 $\boldsymbol{W}_{h q} \in \mathbb{R}^{h \times q}$ 和偏差 $\boldsymbol{b}_{q} \in \mathbb{R}^{1 \times q}$ 为输出层的模型参数。

同多层感知机一样，隐藏层个数 $L$ 和隐藏单元个数 $h$ 都是超参数。此外，如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算，我们可以得到深度门控循环神经网络。

小结

在深度循环神经网络中，隐藏状态的信息不断传递至当前层的下一时间步和当前时间步的下一层。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模