Glossary

Dữ liệu không cân bằng là gì

Dữ liệu không cân bằng đề cập đến một tình huống trong học máy mà phân phối lớp không đồng đều. Điều này thường dẫn đến các mô hình hoạt động kém ở các lớp thiểu số. Ví dụ, trong phát hiện gian lận, số lượng giao dịch gian lận thường ít hơn rất nhiều so với giao dịch hợp pháp. Sự mất cân bằng này có thể làm lệch các dự đoán của mô hình về phía lớp đa số, ảnh hưởng đến hiệu quả tổng thể của nó.


Khi xử lý dữ liệu không cân bằng, các kỹ thuật như lấy mẫu quá mức lớp thiểu số hoặc lấy mẫu thiếu lớp đa số thường được sử dụng. Ngoài ra, việc sử dụng các chỉ số đánh giá cụ thể như điểm F1 hoặc AUC có thể giúp hiểu rõ hơn về hiệu suất của mô hình trên các tập dữ liệu không cân bằng. Những phương pháp này đảm bảo rằng mô hình học được cách xác định hiệu quả các lớp thiểu số, điều này là rất quan trọng trong các ứng dụng như chẩn đoán y tế hoặc phát hiện gian lận.


Với sự phát triển của khoa học dữ liệu, các chiến lược mới như Mạng đối kháng sinh (GANs) đang xuất hiện để giải quyết vấn đề này. Tuy nhiên, cần cẩn trọng để tránh việc quá mức hoặc mất thông tin quý giá. Việc chọn lựa cách tiếp cận phù hợp dựa trên bối cảnh cụ thể là điều cần thiết để xây dựng các mô hình đáng tin cậy.