Glossary
0-9
G
I
K
N
R
V
Y
什麼是消失/爆炸梯度
消失梯度和爆炸梯度是深度學習和神經網絡訓練中至關重要的概念。
消失梯度指在反向傳播過程中,梯度變得極其微小,最終導致權重幾乎不再更新。這種現象在使用 sigmoid 或 tanh 激活函數的深層網絡中尤為常見,從而導致學習速度緩慢或停滯。
與此相反,爆炸梯度則是指在反向傳播中,梯度異常增大,導致權重更新不穩,模型難以收斂。這通常發生在使用 ReLU 激活函數的多層網絡中。
這兩種現象顯著影響深度學習模型的訓練效率和效果。研究者們提出了 LSTM 等多種架構來緩解消失梯度的影響,並採用梯度裁剪等技術來處理爆炸梯度。
隨著深度學習的發展,解決這些問題變得越來越重要,新的激活函數和網絡設計應運而生,旨在保持梯度的穩定性。