Glossary
O que é Gradiente Desaparecendo / Explodindo
Os conceitos de Gradiente Desaparecendo e Gradiente Explodindo são cruciais no contexto de aprendizado profundo e treinamento de redes neurais.
O Gradiente Desaparecendo refere-se ao cenário em que os gradientes se tornam extremamente pequenos durante a retropropagação, efetivamente fazendo com que os pesos parem de atualizar. Esse fenômeno é prevalente em redes profundas, particularmente aquelas que usam funções de ativação sigmoid ou tanh, levando a um aprendizado lento ou estagnado.
Por outro lado, o Gradiente Explodindo ocorre quando os gradientes crescem excessivamente durante a retropropagação, resultando em atualizações de pesos instáveis e divergência do modelo. Isso é frequentemente visto em redes com muitas camadas, especialmente ao usar funções de ativação ReLU.
Ambos os fenômenos impactam significativamente a eficiência e a eficácia do treinamento de modelos de aprendizado profundo. Pesquisadores propuseram várias arquiteturas como LSTM para mitigar os efeitos do Gradiente Desaparecendo e técnicas como recorte de gradiente para lidar com o Gradiente Explodindo.
À medida que o aprendizado profundo evolui, abordar esses problemas se torna cada vez mais crucial, com novas funções de ativação e designs de rede visando manter a estabilidade dos gradientes.