深度学习笔记(四):神经网络之链式法则详解

简单的说链式法则就是原本y对x求偏导，但是由于过程较为复杂，我们引入了一个中间层z，先利用y对z求偏导，在乘上z对x求偏导，这样会使整个计算更为简单。作用:通过链式法则我们就可以把最后一层的误差，一层一层的输出到中间层上面去，从而得到中间层的梯度信息，通过梯度信息我们就能很好的更新权值，从而达到更好的优化效果。从上面可以知道E为最右边，当E对w1做偏微分，可以更新w1；同理E对w2做偏微分，就更新

ZZY_dl

4226人浏览 · 2021-01-28 23:06:42

ZZY_dl · 2021-01-28 23:06:42 发布

在这里插入图片描述

文章目录

介绍
代码分析

介绍

在深度学习的领域中，链式法则是一个极为重要的数学工具，它在理解和实现神经网络的反向传播算法中起着关键作用。简单来讲，链式法则主要用于处理较为复杂的函数求偏导问题。当我们需要计算 ( y ) 对 ( x ) 的偏导数时，若直接求解过程繁琐，此时引入一个中间变量 ( z ) 会使计算变得更为简便。具体做法是，先计算 ( y ) 对 ( z ) 的偏导数，再乘以 ( z ) 对 ( x ) 的偏导数，这样就能间接得到 ( y ) 对 ( x ) 的偏导数。

这种方法在神经网络中具有重大意义。在神经网络的训练过程中，我们的目标是通过不断调整网络的权值，使得模型的输出尽可能接近真实值。而链式法则恰好为我们提供了一种有效的手段，它能够将网络最后一层的误差，逐层反向传播到中间层，从而获取中间层的梯度信息。这些梯度信息就像是一份指南，告诉我们如何去调整权值，以达到更好的优化效果，让模型的性能不断提升。

以一个简单的神经网络结构为例（如网络结构示意图所示），假设 ( E ) 位于网络的最右侧，代表最终的误差值。当我们对 ( E ) 关于 ( w_1 ) 求偏微分时，这个偏导数的值能够帮助我们更新 ( w_1 )；同理，对 ( E ) 关于 ( w_2 ) 求偏微分，就可以更新 ( w_2 )。
在这里插入图片描述

代码分析

从输入 ( X ) 到最终的误差 ( E ) 之间，我们经历了中间层 ( O_1 ) 和 ( O_2 )。原本从 ( X ) 到 ( E ) 的偏微分计算是一个复杂的过程，但借助链式法则，它被巧妙地转化为了三个相对简单的偏微分求解步骤。这种转化大大降低了计算的难度，使得整个操作变得更加易于理解和实现。
在这里插入图片描述

下面通过实际代码来进一步阐释链式法则在神经网络中的应用（如代码示例图所示）：

第 72 行代码的含义是计算 ( y_2 ) 对 ( y_1 ) 的偏导数。这一步是在获取中间变量之间的变化关系，为后续的链式计算做准备。
第 73 行代码表示计算 ( y_1 ) 对 ( w_1 ) 的偏导数。它反映了中间变量 ( y_1 ) 对权值 ( w_1 ) 的敏感程度。
第 74 行代码是计算 ( d_2 ) 对 ( w_1 ) 的偏导数。这里的 ( d_2 ) 可能是与最终误差相关的一个中间变量，通过计算它对 ( w_1 ) 的偏导数，我们能够更深入地了解误差对权值的影响路径。
第 75 行代码运用了链式法则，将前面计算的两个偏导数进行相乘，从而得到 ( d_2 ) 对 ( w_1 ) 的间接偏导数。
第 76 行代码与第 75 行的结果一致，这清晰地表明了链式法则在神经网络计算中的正确性和有效性。它验证了通过链式法则进行的偏导数计算，与直接计算的结果是相符的，充分证明了链式法则完全适用于神经网络的计算场景。

通过以上理论阐述和实际代码示例，我们可以更加深入地理解链式法则在神经网络中的重要性和具体应用方式，为进一步掌握和优化神经网络的训练过程提供有力的支持。
在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模