Glossary

O que é Dados Desequilibrados

Dados desequilibrados referem-se a uma situação em aprendizado de máquina onde a distribuição das classes não é uniforme. Isso geralmente leva a modelos que apresentam baixo desempenho nas classes minoritárias. Por exemplo, na detecção de fraudes, o número de transações fraudulentas é muito menor em comparação às legítimas. Esse desequilíbrio pode enviesar as previsões do modelo em favor da classe majoritária, afetando sua eficácia geral.


Ao lidar com dados desequilibrados, técnicas como superamostragem da classe minoritária ou subamostragem da classe majoritária são comumente utilizadas. Além disso, o uso de métricas de avaliação específicas, como F1-score ou AUC, pode ajudar a entender melhor o desempenho do modelo em conjuntos de dados desequilibrados. Esses métodos garantem que o modelo aprenda a identificar efetivamente as classes minoritárias, o que é crucial em aplicações como diagnóstico médico e detecção de fraudes.


Com o avanço da ciência de dados, novas estratégias, como Redes Adversárias Generativas (GANs), estão surgindo para enfrentar esse problema. No entanto, deve-se ter cuidado para evitar o sobreajuste ou a perda de informações valiosas. Escolher a abordagem certa, com base no contexto específico, é essencial para construir modelos confiáveis.