平衡節點

您可以使用平衡節點修正資料集中的不平衡,以便它們符合指定的檢定準則。例如,假設某個資料集只有兩個值(lowhigh),並且 90% 的觀察值為 low,而只有 10% 的觀察值為 high。很多建模技術處理此類偏倚資料都有困難,因為它們傾向於只學習這些 low 的結果,而忽略 high 的結果(因為這些結果少的可憐)。如果資料已平衡很好, low high 結果具有大致相同的數目,那麼模型將更有可能找出分辨這兩個群組的型樣。這種情況下,平衡節點對於建立平衡指令,從而減少帶有 low 結果的觀察值數量非常有用。

平衡是通過複製記錄,然後根據指定的條件捨棄記錄完成執行的。將始終傳遞不符合任何條件的記錄。因為此過程的工作模式為複製和/或捨棄記錄,所以在下游作業中將丟失資料的原始順序。在向資料串流新增平衡節點之前,請確保衍生任何與序列相關的值。

附註:平衡節點可從分佈圖和直方圖自動產生。例如,您可以平衡資料以顯示某一種類欄位所有種類的相同比例,如分佈圖形所示。

範例。 建立 RFM 串流以識別積極回應以往營銷活動的最新客戶時,銷售公司的市場行銷處可以使用平衡節點來平衡資料中 true 和 false 回應之間的差異。