Agrupación en clúster de modelos

Los modelos de agrupación en clústeres se centran en la identificación de grupos de registros similares y en el etiquetado de registros según el grupo al que pertenecen. Esto se lleva a cabo sin la ventaja de disponer de conocimientos previos sobre los grupos y sus características. De hecho, puede que ni siquiera sepa exactamente cuántos grupos va a buscar. Esto es lo que diferencia a los modelos de agrupación en clústeres de otras técnicas de aprendizaje de máquinas: no hay campo objetivo o de salida predefinidos para el modelo que se va a predecir. A menudo se hace referencia a estos modelos como modelos de aprendizaje no supervisado, ya que no hay ningún estándar externo con el que juzgar el rendimiento de la clasificación del modelo. No hay respuestas correctas o incorrectas para estos modelos. Su valor viene determinado por su capacidad de capturar agrupaciones interesantes en los datos y proporcionar descripciones útiles de dichas agrupaciones.

Los métodos de agrupación en clústeres se basan en la medición de distancias entre registros y entre clústeres. Los registros se asignan a los clústeres de un modo que tiende a minimizar la distancia entre los registros pertenecientes al mismo clúster.

Se proporcionan los métodos de agrupación en clúster siguientes:

El nodo K-medias agrupa conjuntos de datos en grupos distintos (o clústeres). El método define un número fijo de clústeres, de forma iterativa asigna registros a los clústeres y ajusta los centros de los clústeres hasta que no se pueda mejorar el modelo. En lugar de intentar predecir un resultado, los modelos de k-medias utilizan un proceso conocido como aprendizaje no supervisado para revelar los patrones del conjunto de campos de entrada.
El nodo Bietápico es un método de agrupación en clústeres de dos pasos. El primer paso es hacer una única pasada por los datos para comprimir los datos de entrada de la fila en un conjunto de subclústeres administrable. El segundo paso utiliza un método de agrupación en clústeres jerárquica para fundir progresivamente los subclústeres en clústeres cada vez más grandes. El bietápico tiene la ventaja de estimar automáticamente el número óptimo de clústeres para los datos de entrenamiento. Puede gestionar tipos de campos mixtos y grandes conjuntos de datos eficazmente.
El nodo Kohonen genera un tipo de red neuronal que se puede usar para agrupar un conjunto de datos en grupos distintos. Cuando la red se termina de entrenar, los registros que son similares se deberían cerrar juntos en el mapa de resultados, mientras que los registros que son diferentes aparecerían aparte. Puede observar el número de observaciones capturadas por cada unidad en el nugget de modelo para identificar unidades fuertes. Esto le proporcionará una idea del número apropiado de clústeres.
La agrupación en clúster espacial basada en densidad jerárquica (HDBSCAN)© utiliza el aprendizaje no supervisado para encontrar clústeres, o regiones densas, de un conjunto de datos. El nodo HDBSCAN en SPSS Modeler expone las características principales y los parámetros utilizados con más frecuencia de la biblioteca HDBSCAN. El nodo se implementa en Python, y puede utilizarlo para agrupar en clúster el conjunto de datos en grupos distintos cuando no sabe qué grupos están primero.

Los modelos de agrupación en clústeres se usan a menudo para crear clústeres o segmentos que se usan posteriormente como entradas en análisis posteriores. Un ejemplo común lo ilustran los segmentos del mercado que usan los comerciantes para dividir su mercado en subgrupos homogéneos. Cada segmento tiene unas características especiales que afectan al éxito de los esfuerzos de mercado orientados a ello. Si utiliza la minería de datos para optimizar su estrategia de mercado, normalmente podrá mejorar el modelo de forma significativa identificando los segmentos apropiados y utilizando esa información sobre los segmentos en sus modelos predictivos.