Glossary

불균형 데이터란 무엇인가

불균형 데이터는 기계 학습에서 클래스 분포가 고르지 않은 상황을 의미합니다. 이로 인해 모델이 소수 클래스에서 성능이 저하될 수 있습니다. 예를 들어, 사기 탐지에서 사기 거래의 수는 정상 거래보다 훨씬 적습니다. 이러한 불균형은 모델의 예측을 다수 클래스에 편향시켜 전반적인 효과성을 저하시킬 수 있습니다.


불균형 데이터를 처리할 때는 소수 클래스를 오버샘플링하거나 다수 클래스를 언더샘플링하는 기술이 일반적으로 사용됩니다. 또한 F1 점수나 AUC와 같은 특정 평가 지표를 사용하면 불균형 데이터셋에서 모델 성능을 더 잘 평가할 수 있습니다. 이러한 방법은 모델이 소수 클래스를 효과적으로 식별하도록 보장하는 데 도움이 됩니다. 이는 의료 진단이나 사기 탐지와 같은 응용 프로그램에서 매우 중요합니다.


데이터 과학의 발전에 따라 GAN(Generative Adversarial Networks)과 같은 새로운 전략이 등장하고 있습니다. 그러나 지나치게 처리하거나 잘못 처리하면 정보 손실이나 모델 과적합이 발생할 수 있으므로 주의해야 합니다. 특정 맥락에 따라 적절한 접근 방식을 선택하는 것이 신뢰할 수 있는 모델 구축에 필수적입니다.