Hay una variedad de formas de utilizar la agrupación en clústeres en el aprendizaje automático, desde las exploraciones iniciales de un conjunto de datos hasta el monitoreo de procesos en curso. Puede usarlo en el análisis exploratorio de datos con un nuevo conjunto de datos para comprender las tendencias, los patrones y los valores atípicos subyacentes. Alternativamente, puede tener un conjunto de datos más grande que deba dividirse en varios conjuntos de datos o reducirse mediante la reducción de dimensionalidad. En estos casos, el clúster puede ser un paso en el preprocesamiento.
Algunos ejemplos de clústeres pueden ser géneros musicales, diferentes grupos de usuarios, segmentos clave de una segmentación de mercado, tipos de tráfico de red en un clúster de servidores, grupos de colegas en una red social o muchas otras categories. El proceso de agrupamiento puede emplear solo una característica de los datos o puede emplear todas las características presentes en los datos.
Resulta útil pensar en el agrupamiento en clústeres como un intento de encontrar agrupaciones naturales en los datos para ver qué categorías pueden existir y qué define esas categorías. Los clústeres pueden ayudarle a encontrar relaciones subyacentes entre puntos de datos para ver qué características o rasgos se comparten entre las categorías. En función del algoritmo de agrupación en clústeres utilizado, es posible que pueda eliminar los valores atípicos de los datos o etiquetarlos como valores atípicos. El agrupamiento en clústeres también puede ayudar en la detección de anomalías al identificar qué puntos de datos no están contenidos dentro de un clúster o solo están débilmente asociados con un clúster y, por lo tanto, pueden ser una anomalía en el proceso de generación de datos.
La agrupación en clústeres también se puede emplear para reducir la complejidad de grandes conjuntos de datos mediante la reducción del número de dimensiones de los datos. Si observa que las categorías están definidas por solo dos o tres entidades, es posible que pueda eliminar entidades superfluas o emplear técnicas de reducción de dimensionalidad como PCA. La agrupación en clústeres también es muy útil para crear visualizaciones de los conjuntos de datos para ver las propiedades emergentes de los datos, así como la densidad y las relaciones entre los clústeres.
Los algoritmos de agrupación en clústeres se distinguen a veces por realizar una agrupación en clústeres dura, en el que cada punto de datos pertenece a un único clúster y tiene un valor binario de estar o no en un clúster, o por realizar una agrupación en clústeres blando, en el que cada punto de datos recibe una probabilidad de pertenecer a cada clúster identificado. No existe un mejor proceso de agrupación en clústeres; deberá elegir el enfoque que tenga más sentido para sus necesidades y los datos con los que está trabajando.