链式法则：反向传播能work的数学保证

我们知道，反向传播是深层神经网络的钥匙。这把钥匙可以开启深度学习的大门，靠的是链式法则。

数学上，梯度的链式法则（chain rule）保证了：每个局部调整的方向，都是全局误差下降方向的一部分。算法通过链式求导，让每个连接只计算自己那一小段“责任”，而这些局部导数在数学上拼接起来，正好构成总体误差下降的方向。

真正理解反向传播，可以把神经网络看成一串“接力函数”。前面一层把输入揉成中间表示，后面一层再把中间表示压成输出。数学上，这就是复合函数：输出结果是前一层输出的函数，而前一层的输出又是更前一层输出的函数，一环套一环。

链式法则说的其实很简单：当你在最末端看到一个总体误差时，如果你稍微改动前面某个小小的权重，那条微小的改动会沿着所有相关的下游环节一路传递，每一环都会对它产生自己的放大或削弱作用。等这点改动最终到达输出端时，所有这些局部影响相乘，就决定了——这个权重的变化会让最终结果变好还是变坏、影响有多大。这就是所谓的“梯度”：它定量描述了每一个参数对最终误差的责任程度。

而反向传播算法做的事情，正好是把这个推理过程倒过来。它从输出误差出发，依次把“对结果的敏感度”沿着网络反向传回去，让每一层都能根据自己的局部导数，算出那份微小的“责任”。

这听上去还是抽象。把它换成一幅画：想象一条多支流的河。最下游是“损失”偏差，上游是权重。你在某一条细小支流加了一车水，最下游的水位会不会升高，升高多少，要看沿途每个河段的宽窄与坡度。宽的地方放大得少，窄的地方放大得多。链式法则就是把“沿途每一段的放大系数”相乘，再把通往下游的所有可能路径都加起来，得到“这车水对总水位的最终影响”。在网络里，“放大系数”就是每一层的局部导数；“所有路径求和”对应一层又一层的加权求和连接。

把这个直觉落到最简单的两层网络上更清楚。设输出是 y，最末端的损失是 L(y)，中间有一层隐变量 h，某个权重是 w。L 先受 y 的影响，y 受 h 的影响，h 又受 w 的影响。链式法则把“改一点 w 会让 L 变多少”拆成三段相乘：先问“y 变一点，L 变多少”，再问“h 变一点，y 变多少”，最后问“w 变一点，h 变多少”。三段答案一相乘，就是 w 的方向感与力度。这就是：

∂L/∂w = (∂L/∂y)·(∂y/∂h)·(∂h/∂w)

如果有多条通路能把 w 的影响传到 y，上式就把每条通路的乘积加起来。你不需要看全网的细节，只要在路过的每一小段量一下“斜率”，最后把这条路的斜率连乘、把所有可能的路相加，就能得到对总体的真实影响。

这正是反向传播高效的秘密所在。网络里有亿万个 w，一次次“从下游往上游”把局部斜率记下来并复用，就能在一趟回传里为所有权重算出各自的“方向感”。工程里叫它“反向模式自动微分”：先在正向把数值流过去，再在反向把“敏感度”流回来。正向像做题，反向像批改。每个节点只做两件简单的小事：保存好自己在正向时的局部斜率；在反向时把从下游收到的敏感度乘上这个斜率，再按连接把它分发给上游。局部小账加起来，恰好就是全局的大账。

“局部调整会不会互相抵消”的问题，在这里有了答案。各处的斜率不是随意猜的，而是同一条损失河道上真实量出来的坡度。每个参数沿着自己那条“真实下坡”的方向迈小步，所有小步在数学上是朝着同一座山谷的下降方向——虽然不保证一步到位找到全局最低点，但保证“这一步是在往下走”。这也是为什么训练时有必要把步子迈小一点、再迈很多次；要用更稳健的下坡策略（比如 Adam 那样自适应步长）；要用不那么容易把斜率变得过小或过大的非线性转换（比如ReLU 取代sigmoid）。当某些路段的斜率很接近零，连乘容易把敏感度“磨没”，这就是“梯度消失”；当斜率都大于一，连乘又容易把敏感度“炸开”，那是“梯度爆炸”。这两种现象，恰恰进一步印证了“链式相乘、路径求和”的真实物理：河道太平坦，水势被耗散；河道太陡峭，水势被放大。工程上的一代又一代改良，本质上都是在修河道，让敏感度既不过分被耗散，也不过分被放大，从而让“下坡路”更可走。

反向传播的成功，为深度学习奠定了算法基石。它让连接主义从象牙塔走向实用化，为后来的“深层网络”爆发提供了理论与技术前提。

反向传播：深层神经网络的钥匙

立委关于大模型与AI的博客汇总

链式法则：反向传播能work的数学保证

发布者

立委

发表回复