Algoritmos de armazenamento em cluster de análise de dados preditiva SPSS em blocos de notas
É possível usar o Two-Step escalável ou o algoritmo de avaliação de modelo de cluster para criar um cluster de dados nos blocos de notas.
Clusterização em Duas Etapas
Escalável em Duas Etapas é baseado no algoritmo de clusterização em duas etapas familiar, mas estende sua funcionalidade e seu desempenho em várias direções.
Primeiro, ele pode trabalhar efetivamente com dados grandes e distribuídos suportados pelo Spark que fornecem o paradigma de computação Map-Reduce.
Segundo, o algoritmo fornece mecanismos para selecionar os recursos mais relevantes para clusterização dos dados fornecidos, bem como para detecção de pontos raros de valor discrepante. Além do mais, ele fornece um conjunto aprimorado de recursos de avaliação e diagnóstico para ativação de insight.
Primeiro, o algoritmo de clusterização em duas etapas executa uma etapa de pré-clusterização, varrendo o conjunto de dados inteiro e armazenando as regiões densas de casos de dados em termos de estatísticas básicas chamadas recursos do cluster. Os recursos de cluster são armazenados na memória em uma estrutura de dados chamada árvore CF. Por fim, um algoritmo de clusterização hierárquico aglomerativo é aplicado para agrupar o conjunto de recurso de cluster.
Exemplo de código Python:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()
Avaliação de Modelo de Cluster
Avaliação de Modelo de Cluster (CME) visa interpretar modelos de cluster e descobrir insights úteis com base em várias medidas de avaliação.
É uma análise de pós-modelagem que é genérica e independente de quaisquer tipos de modelos de cluster.
Exemplo de código Python:
from spss.ml.clustering.twostep import TwoStep
cluster = TwoStep(). \
setInputFieldList(["region", "happy", "age"]). \
setDistMeasure("LOGLIKELIHOOD"). \
setFeatureImportanceMethod("CRITERION"). \
setAutoClustering(True)
clusterModel = cluster.fit(data)
predictions = clusterModel.transform(data)
predictions.show()