Este tutorial utiliza um módulo da biblioteca scikit-learn (sklearn) que executa o agrupamento k-means. O módulo inclui técnicas de otimização integradas que são manipuladas por seus parâmetros de classe. A classe do módulo tem a seguinte aparência:
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
Os parâmetros incluem o número de clusters a serem formados e o número de centroides a serem gerados (n_clusters). Há dois métodos de inicialização disponíveisk-means++andrandom. Também inclui atributos para definir o número máximo de iterações. Cada iteração começa particionando o conjunto de dados no valor do n_clustersparameter.
Estas bibliotecas são utilizadas para gerar um conjunto de dados de teste e fazer agrupamentos:
importar pandas como pd
importar sklearn
importar matplotlib.pyplot as plt
importar Seaborn as sns
importar numpy
a partir de sklearn.cluster importar KMeans
de sklearn.datasets importar make_blobs de sklearn.decomposition importar PCA
de sklearn.preprocessing importar StandardScaler