異常偵測節點

異常偵測模型用於識別資料中的離群值或異常觀察值。 與儲存有關異常觀察值的規則的其他建模方法不同,異常偵測模型儲存有關正常行為的資訊。 因此即使在離群值不符合任何已知型樣的情況下,異常偵測模型也使識別離群值成為可能,在新型樣可能不斷湧現的應用(如缺陷偵測)中,該模型可能尤其有用。 異常偵測是非監督式方法,這就意味著它不需要包含已知詐騙案例的訓練資料集作為起點。

識別離群值的傳統方法通常是一次檢查一個或兩個變數,而異常偵測可以檢查大量欄位以識別相似記錄所屬的叢集或對等群組。 然後,可將每條記錄與其對等群組中的其他記錄進行比較,以識別出可能的異常值。 觀察值與正常中心值離得越遠,它越有可能是異常觀察值。 例如,該演算法可能會將記錄聚合為三個不同的叢集,並對離任何一個叢集的中心值較遠的那些記錄進行旗標。

每條記錄都指定了一個異常指數,該指數是群組離差指數與該觀察值所屬叢集中平均值的比。 此指數的值越大,觀察值與平均值的離差就越大。 通常情況下,異常指數值少於 1 甚至少於 1.5 的觀察值都不會被視為異常值,因為該離差與平均值相同或者只是大一點。 但是,指數值大於 2 的觀察值有可能是異常觀察值,因為該離差至少是平均值的兩倍。

異常偵測是一種探索性方法,它是為對應該進行進一步分析的可能異常觀察值或記錄進行快速偵測而設計的。 這些觀測值應視為 疑似 異常值,在進行進一步檢查後,可以證明它們是或不是真正的異常值。 您可能會發現某個記錄完全有效,但無法選擇從資料中將其篩選出來用於模型建置。 另外,如果演算法重複檢測出虛假異常值,那麼可能表示資料收集過程中存在錯誤或假象。

請注意,異常偵測會透過叢集分析,根據模型中選取的欄位集來識別不尋常的記錄或觀察值,而不會考慮任何特定的目標(相依)欄位,也不管那些欄位與您嘗試預測的型樣是否相關。 鑒於此,您可能想要結合使用異常偵測與功能選擇或用來對欄位進行篩選和分級的其他技術。 例如,您可以使用功能選擇來識別相對於特定目標的最重要欄位,然後使用異常偵測來尋找對那些欄位而言最不尋常的記錄。 (另一種方法是建置決策樹狀結構模型,然後檢查作為潛在異常的任何錯誤分類的記錄。 但是,使用此方法難以大規模進行抄寫或自動化。)

範例。 對農業發展補貼進行審查以確定是否可能存在內部欺詐觀察值時,異常偵測可用於探索有悖於標準值的離差,並強調顯示值得進一步調查的異常記錄。 特別值得關注的是那些相對農場類型和規模而言似乎申請了過多(或過少)補助金的補貼申請。

需求。 一個或多個輸入欄位。 請注意,只有其角色使用來源節點或「類型」節點設定為輸入的欄位才能用作輸入。 目標欄位(角色設定為目標兩者)將被忽略。

強度。 通過標示符合已知規則集(而不是符合已知規則集)的觀察值,異常偵測模型可以識別異常觀察值,即使它們未遵循先前已知的型樣也是如此。 與功能選擇結合使用時,異常偵測可用於篩選大數量資料,以便相對較快地識別最受關注的記錄。