Glossary

Qué son el Gradiente Desvanecido / Explosivo

Los conceptos de Gradiente Desvanecido y Gradiente Explosivo son cruciales en el contexto del aprendizaje profundo y el entrenamiento de redes neuronales.


El Gradiente Desvanecido se refiere a la situación en la que los gradientes se vuelven extremadamente pequeños durante la retropropagación, haciendo que los pesos dejen de actualizarse. Este fenómeno es prevalente en redes profundas, especialmente aquellas que utilizan funciones de activación sigmoides o tanh, lo que lleva a un aprendizaje lento o estancado.


Por otro lado, el Gradiente Explosivo ocurre cuando los gradientes crecen excesivamente durante la retropropagación, resultando en actualizaciones de pesos inestables y divergencia del modelo. Esto se observa a menudo en redes con muchas capas, especialmente al usar funciones de activación ReLU.


Ambos fenómenos afectan significativamente la eficiencia y efectividad del entrenamiento de modelos de aprendizaje profundo. Los investigadores han propuesto varias arquitecturas como LSTM para mitigar los efectos del Gradiente Desvanecido y técnicas como el recorte de gradientes para manejar el Gradiente Explosivo.


A medida que el aprendizaje profundo evoluciona, abordar estos problemas se vuelve cada vez más crucial, con nuevas funciones de activación y diseños de redes que buscan mantener la estabilidad del gradiente.