Notebook 中的 SPSS 預測分析叢集演算法

您可以使用可調式 Two-Step 或「叢集」模型評估演算法來對 Notebook 中的資料進行叢集作業。

兩步驟叢集

「可調式兩步驟」以熟悉的兩步驟叢集演算法為基礎,但在數個方向上延伸了其功能及效能。

首先,它可以有效地處理由提供 Map-Reduce 計算參照範例的 Spark 支援的大型分散式資料。

其次,該演算法提供的機制可用於選取最相關的特性以使給定的資料形成叢集,並可用於偵測罕見的異常值點。 此外,它還會提供一組加強的評估及診斷特性以啟用洞察。

兩步驟叢集演算法首先會透過掃描整個資料集,並儲存在稱為叢集特性的摘要統計資料方面密集的資料組區域,來執行預先形成叢集步驟。 這些叢集特性會以稱為 CF 樹狀結構的資料結構儲存在記憶體中。 最後,套用聚合階層式叢集演算法以使這組叢集特性形成叢集。

Python 程式碼範例:

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

叢集模型評估

叢集模型評估 (CME) 旨在根據各種評估測量來解譯叢集模型,並探索有用的洞察。

這是一種後建模分析,它是通用且與任何類型的叢集模型無關。

Python 程式碼範例:

from spss.ml.clustering.twostep import TwoStep

cluster = TwoStep(). \
    setInputFieldList(["region", "happy", "age"]). \
    setDistMeasure("LOGLIKELIHOOD"). \
    setFeatureImportanceMethod("CRITERION"). \
    setAutoClustering(True)

clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()

上層主題: SPSS 預測分析演算法