Glossary

什麼是不平衡數據

不平衡數據是指在機器學習中,類別分布不均的情況。這通常導致模型在少數類別上的表現不佳。例如,在詐騙檢測中,詐騙交易的數量遠低於正常交易。這種不平衡會使模型的預測偏向於多數類,從而影響整體有效性。


處理不平衡數據時,常用的技術包括對少數類進行過採樣或對多數類進行欠採樣。此外,採用特定的評估指標如F1-score或AUC可以更好地評估模型在不平衡數據上的表現。這些方法有助於確保模型有效識別少數類樣本,這在醫療診斷或詐騙檢測等應用中至關重要。


隨著數據科學的發展,生成對抗網絡(GANs)等新策略正在出現,以解決這一問題。然而,必須謹慎處理,以防過擬合或丟失有價值的信息。根據具體情境選擇合適的方法對構建可靠模型至關重要。