Este tutorial utiliza un módulo de la biblioteca scikit-learn (sklearn) que realiza la agrupación de medias k. El módulo incluye técnicas de optimización integradas que son manipuladas por sus parámetros de clase. La clase para el módulo tiene este aspecto:
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
Los parámetros incluyen el número de clusters que hay que formar y el número de centroides que hay que generar (n_clusters). Hay dos métodos de inicialización disponibles: medias k++ y aleatorio. También incluye atributos para fijar el número máximo de iteraciones. Cada iteración comienza particionando el conjunto de datos en el valor del parámetro n_clustersparameter.
Estas bibliotecas se utilizan para generar un conjunto de datos de prueba y realizar clusterings:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler