Glossary

Qu'est-ce que le Gradient Disparaissant / Explosif

Les concepts de Gradient Disparaissant et de Gradient Explosif sont cruciaux dans le contexte de l'apprentissage profond et de la formation de réseaux de neurones.


Le Gradient Disparaissant fait référence à la situation où les gradients deviennent extrêmement petits pendant la rétropropagation, ce qui fait que les poids cessent de se mettre à jour. Ce phénomène est répandu dans les réseaux profonds, en particulier ceux utilisant des fonctions d'activation sigmoïde ou tanh, ce qui entraîne un apprentissage lent ou une stagnation.


En revanche, le Gradient Explosif se produit lorsque les gradients deviennent excessivement grands pendant la rétropropagation, entraînant des mises à jour de poids instables et une divergence du modèle. Cela est souvent observé dans des réseaux comportant de nombreuses couches, notamment lors de l'utilisation de fonctions d'activation ReLU.


Ces deux phénomènes ont un impact significatif sur l'efficacité et l'efficacité de l'entraînement des modèles d'apprentissage profond. Les chercheurs ont proposé diverses architectures comme LSTM pour atténuer les effets du Gradient Disparaissant et des techniques comme le clipping de gradient pour gérer le Gradient Explosif.


À mesure que l'apprentissage profond évolue, il devient de plus en plus crucial de traiter ces problèmes, avec de nouvelles fonctions d'activation et des conceptions de réseau visant à maintenir la stabilité des gradients.