Glossary

소실/폭주 기울기란 무엇인가

소실 기울기와 폭주 기울기는 딥 러닝 및 신경망 훈련에서 매우 중요한 개념입니다.


소실 기울기는 역전파 과정에서 기울기가 너무 작아져 결국 가중치가 거의 업데이트되지 않는 상황을 의미합니다. 이 현상은 시그모이드 또는 하이퍼볼릭 탄젠트 활성화 함수를 사용하는 깊은 네트워크에서 흔히 발생하며, 학습 속도를 느리게 하거나 정체됩니다.


반면, 폭주 기울기는 역전파 중 기울기가 지나치게 커져 가중치 업데이트가 불안정해지고 모델이 수렴하지 않는 경우를 의미합니다. 이는 주로 ReLU 활성화 함수를 사용하는 다층 네트워크에서 발생합니다.


이 두 현상은 딥 러닝 모델의 훈련 효율성과 효과에 중대한 영향을 미칩니다. 연구자들은 소실 기울기의 영향을 완화하기 위해 LSTM과 같은 다양한 아키텍처를 제안하고, 폭주 기울기를 처리하기 위해 기울기 클리핑과 같은 기술을 채택했습니다.


딥 러닝이 발전함에 따라 이러한 문제를 해결하는 것이 점점 더 중요해지고 있으며, 기울기 안정성을 유지하기 위해 새로운 활성화 함수와 네트워크 설계가 등장하고 있습니다.