Este tutorial utiliza un módulo de la biblioteca scikit-learn (sklearn) que realiza el clustering de medias k. El módulo incluye técnicas de optimización integradas que son manipuladas por sus parámetros de clase. La clase para el módulo tiene este aspecto:

class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12

Los parámetros incluyen el número de clusters que hay que formar y el número de centroides que hay que generar (n_clusters). Hay dos métodos de inicialización disponibles: medias k++ y aleatorio. También incluye atributos para fijar el número máximo de iteraciones. Cada iteración comienza particionando el conjunto de datos en el valor del parámetro n_clustersparameter.

Estas bibliotecas se utilizan para generar un conjunto de datos de prueba y realizar agrupaciones en clústeres:

import pandas as pd import sklearn import matplotlib.pyplot as plt import seaborn as sns import numpy from sklearn.cluster import KMeans from sklearn.datasets import make_blobs from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler