Glossary
0-9
G
I
K
N
R
V
Y
什么是消失/爆炸梯度
消失梯度和爆炸梯度是深度学习和神经网络训练中至关重要的概念。
消失梯度是指在反向传播过程中,梯度变得极其微小,最终导致权重几乎不再更新。这种现象在使用 sigmoid 或 tanh 激活函数的深层网络中尤为常见,从而导致学习速度缓慢或停滞。
与此相反,爆炸梯度是指在反向传播中,梯度异常增大,导致权重更新不稳,模型难以收敛。这通常发生在使用 ReLU 激活函数的多层网络中。
这两种现象显著影响深度学习模型的训练效率和效果。研究者们提出了 LSTM 等多种架构来缓解消失梯度的影响,并采用梯度裁剪等技术来处理爆炸梯度。
随着深度学习的发展,解决这些问题变得越来越重要,新的激活函数和网络设计应运而生,旨在保持梯度的稳定性。