HDBSCAN 節點

Hierarchical Density-Based Spatial Clustering (HDBSCAN)© 使用非監督式學習來尋找資料集的叢集或密集區域。SPSS® Modeler 中的 HDBSCAN 節點顯示了 HDBSCAN 程式庫的核心功能及常用參數。該節點在 Python 中實作,當您一開始不瞭解那是些什麼群組時,您可以使用它來將資料集叢集至不同的群組。 與 SPSS Modeler 中的大多數學習方法不同的是,HDBSCAN 模型使用目標欄位。這種類型的學習(沒有目標欄位)稱為未受監督的學習。HDBSCAN 模型試圖揭示輸入欄位集中的型樣而不是預測結果。記錄會進行分組,因此某個群組或叢集內的記錄彼此會相似,但不同群組中的記錄並不同。HDBSCAN 演算法將叢集視為與低密度區域分開的高密度區域。由於這種相當普遍的觀點,HDBSCAN 找到的叢集可能會是任何形狀,與假設叢集是凸形的 k-means 相反。低密度區域中單獨存在的離群值點也會標示出來。HDBSCAN 還支援對新樣本評分。1

若要使用 HDBSCAN 節點,您必須設定上游「類型」節點。HDBSCAN 節點將從「類型」節點(或上游來源節點的「類型」標籤)讀取輸入值。

如需 HDBSCAN 叢集演算法的相關資訊,請參閱 HDBSCAN 說明文件,網址為:http://hdbscan.readthedocs.io/en/latest/1

1 "User Guide / Tutorial." The hdbscan Clustering Library. Web. © 2016, Leland McInnes, John Healy, Steve Astels.