En este tutorial se emplea un módulo de la biblioteca scikit-learn (sklearn) que realiza la agrupación en clústeres de k-medias. El módulo incluye técnicas de optimización integradas que son manipuladas por sus parámetros de clase. La clase del módulo tiene el siguiente aspecto:
class sklearn.cluster.KMeans(n_clusters=8, *, init= 'k-means++', n_init= 'auto', max_iter=300, tol=0.0001, verbose=0, random_state=Ninguno, copy_x=Verdadero, algorithm='lloyd')12
Los parámetros incluyen el número de clusters que hay que formar y el número de centroides que hay que generar (n_clusters). Hay dos métodos de inicialización disponibles: medias k++ y aleatorio. También incluye atributos para fijar el número máximo de iteraciones. Cada iteración comienza particionando el conjunto de datos en el valor del parámetro n_clustersparameter.
Estas bibliotecas se emplean para generar un conjunto de datos de prueba y realizar agrupaciones:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler