Glossary

消失勾配/爆発勾配とは何か

消失勾配と爆発勾配は、深層学習や神経ネットワークのトレーニングにおいて非常に重要な概念です。


消失勾配は、逆伝播の過程で勾配が非常に小さくなり、最終的に重みがほとんど更新されなくなる状況を指します。この現象は、シグモイドやtanhの活性化関数を使用する深層ネットワークでよく見られ、学習速度が遅くなるか、停滞します。


一方、爆発勾配は、逆伝播中に勾配が異常に大きくなり、重みの更新が不安定になり、モデルが収束しなくなる状態を指します。これは主にReLU活性化関数を使用する多層ネットワークで発生します。


これら二つの現象は、深層学習モデルのトレーニング効率と効果に大きな影響を与えます。研究者たちは、消失勾配の影響を軽減するためにLSTMなどのアーキテクチャを提案し、爆発勾配を扱うために勾配クリッピングなどの技術を採用しています。


深層学習が進化する中で、これらの問題を解決することがますます重要になり、新しい活性化関数やネットワーク設計が勾配の安定性を維持することを目指して登場しています。