異常節點
異常偵測模型用於識別資料中的離群值或異常觀察值。 與儲存有關異常觀察值的規則的其他建模方法不同,異常偵測模型儲存有關正常行為的資訊。 因此即使在離群值不符合任何已知型樣的情況下,異常偵測模型也可能識別離群值,在新型樣可能不斷湧現的應用程式(如詐騙偵測)中,該模型尤其有用。 異常偵測是非監督式方法,表示它不需要包含已知詐騙案例的訓練資料集作為起點。
識別離群值的傳統方法通常是一次檢查一個或兩個變數,而異常偵測可以檢查大量欄位以識別相似記錄所隸屬的叢集或對等群組。 然後,可將每筆記錄與其對等群組中的其他記錄進行比較,以識別出可能的異常值。 觀察值與正常中心值離得越遠,它越有可能是異常觀察值。 例如,該演算法可能會將記錄聚合為三個不同的叢集,並標示離任何一個叢集的中心值較遠的那些記錄。
每筆記錄都獲指定一個異常指數,該指數是群組偏差指數與該觀察值所隸屬叢集中的平均值的比例。 此指數的值越大,觀察值與平均值的偏差就越大。 通常情況下,異常指數值小於 1 甚至 1.5 的觀察值都不會被視為異常值,因為該偏差與平均值相同或者只是大一點。 但是,指數值大於 2 的觀察值有可能是異常觀察值,因為該偏差至少是平均值的兩倍。
異常偵測是一種探索性方法,旨在偵測應該作為候選項以便進一步分析的異常觀察值或記錄。 這些觀測值應視為疑似 異常值,在進一步檢查後,可以證明它們是或不是真正的異常值。 您可能會發現某筆記錄完全有效,但選擇從資料中將其篩選出來用於模型建置。 另外,如果演算法反覆地發現虛假異常值,則可能表示資料收集過程中存在錯誤或假象。
請注意,異常偵測會透過叢集分析,根據模型中選取的欄位集來識別不尋常的記錄或觀察值,而不會考慮任何特定的目標(相依)欄位,也不管那些欄位與您嘗試預測的型樣是否相關。 鑒於此,您可能想要結合使用異常偵測與功能選擇或用來對欄位進行篩選和分級的其他技術。 例如,您可以使用功能選擇來識別相對於特定目標的最重要欄位,然後使用異常偵測來尋找對那些欄位而言最不尋常的記錄。 (另一種方法是建置決策樹模型,然後檢查作為潛在異常的任何錯誤分類的記錄。 但是,使用此方法難以大規模進行抄寫或自動化。)
範例。 對農業發展補貼進行審查以確定是否可能存在內部欺詐觀察值時,異常偵測可用於探索有悖於標準值的偏差,並強調顯示值得進一步調查的異常記錄。 特別值得關注的是那些相對農場類型和規模而言似乎申請了過多(或過少)補助金的補貼申請。
需求。 一個或多個輸入欄位。 請注意,只有其角色設為使用來源節點或「類型」節點的輸入的欄位才能用作輸入。 目標欄位(角色設為目標或兩者)將被忽略。
強度。 透過標示不符合已知規則集(而不是符合已知規則集)的觀察值,異常偵測模型可以識別異常觀察值,即使它們未遵循先前已知的型樣也是如此。 與功能選擇結合使用時,異常偵測可用於篩選大量資料,以便相對較快地識別最受關注的記錄。