¿Qué es la agrupación en clústeres k-means?

Autores

Business Development + Partnerships

IBM Research

AI Advocate & Technology Writer

¿Qué es la agrupación en clústeres k-means?

K-means clustering es un algoritmo de aprendizaje no monitorear que se emplea para la agrupación de datos , que agrupa puntos de datos no etiquetados en grupos o clústeres.

Es uno de los métodos de agrupación en clústeres más populares utilizados en el machine learning. A diferencia del aprendizaje supervisado, los datos de entrenamiento que utiliza este algoritmo no están etiquetados, lo que significa que los puntos de datos no tienen una estructura de clasificación definida.

Si bien existen varios tipos de algoritmos de agrupamiento, incluidos los exclusivos, superpuestos, jerárquicos y probabilísticos, el algoritmo de clustering k-means es un ejemplo de un método de clustering exclusivo o “duro”. Esta forma de agrupación estipula que un punto de datos puede existir en un solo clúster. Este tipo de análisis de clústeres se usa comúnmente en la ciencia de datos para la segmentación del mercado, la agrupación de documentos, la segmentación de imágenes y la compresión de imágenes. El algoritmo k-means es un método ampliamente empleado en el análisis de conglomerados porque es eficiente, eficaz y sencillo.

K-means es un algoritmo de agrupamiento iterativo basado en centroides que divide un conjunto de datos en grupos similares en función de la distancia entre sus centroides. El centroide, o centro del clúster, es la media o la mediana de todos los puntos dentro del clúster, según las características de los datos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Cómo funciona la agrupación en clústeres de k-means?

La agrupación en clústeres de K-means es un proceso iterativo para minimizar la suma de distancias entre los puntos de datos y sus centroides de clúster.

El algoritmo de agrupamiento de medias k funciona categorizando puntos de datos en clústeres utilizando una medida matemática de distancia, generalmente euclidiana, desde el centro del clúster. El objetivo es minimizar la suma de distancias entre los puntos de datos y sus clústeres asignados. Los puntos de datos más cercanos a un centroide se agrupan dentro de la misma categoría. Un valor k más alto, o el número de conglomerados, significa conglomerados más pequeños con mayor detalle, mientras que un valor k más bajo da lugar a conglomerados más grandes con menos detalle.

Inicializar k

El algoritmo convencional de clustering k-means requiere algunos pasos. El primer paso es inicializar k centroides donde k es igual al número de clústeres elegidos para un conjunto de datos específico. Este enfoque utiliza métodos de selección aleatoria o muestreo centroide inicial.

Asignar centroides

El siguiente paso incluye un proceso iterativo de dos pasos basado en el algoritmo de machine learning de maximización de expectativas.¹El paso de expectativa asigna cada punto de datos a su centroide más cercano en función de la distancia (nuevamente, generalmente euclidiana). El paso de maximización calcula la media de todos los puntos para cada clúster y reasigna el centro del clúster o centroide. Este proceso se repite hasta que las posiciones del centroide hayan alcanzado la convergencia o se haya alcanzado el número máximo de iteraciones.

El agrupamiento de medias K es simple pero sensible a las condiciones iniciales y los valores atípicos. Es importante optimizar la inicialización del centroide y el número de clústeres k, para lograr los clústeres más significativos. Hay varias formas de evaluar y optimizar los componentes de agrupación del algoritmo mediante el uso de métricas de evaluación y métodos de muestreo de centroide inicial.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Métricas de evaluación de clusters

Los clústeres de calidad contienen al menos dos propiedades:

Todos los puntos de datos dentro de un clúster deben ser similares.
Los clústeres deben ser distintos entre sí.

Estas propiedades se logran minimizando la distancia dentro del clúster y maximizando la distancia entre clústeres de todos los puntos de datos en un conjunto de datos. En otras palabras, cuanto más compacto y aislado esté un clúster de otros clústeres, mejor. El objetivo del algoritmo de agrupamiento k-means es minimizar la suma de errores cuadráticos (SSE).² Calcular el SSE de la distancia euclidiana al cuadrado de cada punto a su centroide más cercano evalúa la calidad de las asignaciones de clústeres midiendo la variación total dentro de cada clúster.

Las métricas de evaluación de clústeres verifican la calidad y proporcionan diferentes perspectivas para analizar los resultados de la agrupación. Esto ayuda a seleccionar el número óptimo de clústeres y la inicialización del centroide. Las siguientes métricas de evaluación son formas comunes de medir las distancias dentro y entre clústeres en la agrupación.

Inercia

El algoritmo de agrupación k-means tiene como objetivo elegir los centroides, o centros de agrupación, que minimicen la inercia, una métrica de evaluación que mide lo bien que se agrupó un conjunto de datos basar en métricas de distancia. La inercia se calcula midiendo la distancia entre un punto de datos y su centroide, elevando la distancia al cuadrado y sumando esos cuadrados para cada punto de datos del conglomerado. La suma o valor inercial es la distancia intracluster. Cuanto menor sea la suma, mejor, porque significa que los puntos de datos dentro del clúster son compactos o más similares.³

El índice de Dunn

La segunda propiedad se mide con el índice de Dunn. El índice de Dunn representa la relación entre la distancia mínima entre clústeres y la distancia máxima dentro de clústeres. Los clústeres con una distancia entre clústeres alta indican una mejor calidad porque significa que los clústeres son tan diferentes entre sí como sea posible.⁴

Optimización del rendimiento de k-means

La optimización es importante cuando se emplea k-means para lograr los mejores resultados de agrupación.

El algoritmo k-means no es determinista debido a su paso de inicialización aleatoria. Este método implica que si el algoritmo se realiza dos veces en datos idénticos, las asignaciones del clúster pueden diferir. Para lograr resultados óptimos de clustering, seleccionar adecuadamente los centroides iniciales y el número óptimo de clústeres mejora la precisión y la velocidad del algoritmo k-means.

Inicialización de los centroides del clúster

Cada grupo está representado por un centroide, un punto de datos que representa el centro del grupo. K-means agrupa puntos de datos similares en grupos minimizando la distancia entre los puntos de datos de un grupo con su centroide o valor medio k. El objetivo principal del algoritmo k-means es minimizar las distancias totales entre los puntos y su centroide de grupo asignado. El algoritmo funciona de forma iterativa y la selección de la partición inicial puede tener un gran impacto en los clústeres resultantes.

La inicialización aleatoria corre el riesgo de producir resultados incoherentes. Existen métodos de inicialización de centroides para mitigar estos riesgos. Un estudio de NUS Computing explica y compara métodos como el popular k-means++ con la inicialización aleatoria.⁵

K-means ++

K-means++ es un algoritmo k-means que optimiza la selección del centroide o centroides iniciales del clúster. Desarrollado por los investigadores Arthur y Vassilvitskii, k-means++ mejora la calidad de la asignación final del clúster.⁶

El primer paso para la inicialización mediante el método de medias k++ es elegir un centroide del conjunto de datos. Para cada centroide subsiguiente, calcule la distancia de cada punto de datos desde su centro de clúster más cercano. El siguiente centroide se selecciona teniendo en cuenta la probabilidad de que un punto se encuentre a una distancia proporcional del centroide más cercano elegido anteriormente. El proceso ejecuta iteraciones hasta que se haya inicializado el número elegido de centros de clúster.

Este es un tutorial de IBM Developer que emplea el método k-means++ para la inicialización.

Elegir el número óptimo de clústeres

Idealmente, el algoritmo de medias k itera hasta alcanzar el número óptimo de conglomerados. El número máximo de iteraciones se alcanza una vez que los centroides han logrado la convergencia.

El método del codo

Un método para lograr el número óptimo de clústeres es el método del codo. El método del codo es un método gráfico para encontrar el número óptimo de clústeres dentro de un algoritmo de agrupamiento k-means. Mide la distancia euclidiana entre cada punto de datos y su centro de clúster y elige el número de clústeres en función de dónde se nivela el cambio en la "suma de cuadrados dentro del clúster" (WCSS). Este valor representa la varianza total dentro de cada clúster que se traza frente al número de clústeres.⁷

El primer paso del método del codo es calcular el WCSS para cada clúster (k). Luego, el valor de WCSS se traza a lo largo del eje y y el número de clústeres se traza en el eje x. A medida que aumenta el número de clústeres, los puntos de la gráfica deben formar un patrón coherente. A partir de este patrón, Resultados un rango para el número óptimo de clústeres.⁸ Al decidir el número de clústeres, tenga en cuenta los costos computacionales. Cuanto mayor sea el número de clústeres, más potencia de procesamiento se necesita, especialmente con grandes conjuntos de datos.

Este método no es necesariamente el mejor, especialmente para conjuntos de datos con alta dimensionalidad o forma irregular. Otro método para elegir el número óptimo de clústeres es el análisis de la silueta.⁹

Gráfico ilustrado para agrupamiento medias K

Aplicaciones en machine learning

El algoritmo de agrupamiento de medias k se utiliza en casi todos los dominios e industrias. Generalmente se aplica a datos de machine learning que tienen pocas dimensiones, son numéricos y se pueden dividir fácilmente.

Los investigadores han integrado el agrupamiento de medias k con métodos de aprendizaje profundo como CNN y RNN para mejorar el rendimiento de diversas tareas de aprendizaje automático como visión artificial, PLN y muchos otros dominios. A continuación se muestra una lista de aplicaciones comunes de agrupamiento de medias k:

Segmentación de clientes: La práctica de dividir a los clientes de una compañía en grupos según características comunes que reflejen similitud. Esta estrategia permite a las compañías dirigir a grupos o clusters específicos de clientes para campañas publicitarias específicas.

Clasificación de documentos: procedimiento para asignar varias categorías a los documentos. Muchas organizaciones utilizan este método para moderar el contenido. Consulte esta documentación de watsonx Discover para crear un clasificador de documentos.

Segmentación de imágenes: técnica de visión artificial que divide una imagen digital en conjuntos distintos de pixeles. Esta investigación analiza cómo se emplean los modelos k-means para ayudar a identificar límites en imágenes médicas.¹⁰

Motores de recomendación: Las aplicaciones en toda la web utilizan motores de recomendación. Análisis de componentes principales y técnicas de agrupación de k-means se utilizan para crear recomendaciones de productos para empresas de comercio electrónico.¹¹

Entrenamiento de modelos k-means con python

Para una experiencia de aprendizaje práctico, consulte el tutorial que explica los fundamentos de la realización de k-means clúster en Python mediante IBM Watson Studio en watsonx.ai.

En este tutorial se emplea un módulo de la biblioteca scikit-learn (sklearn) que realiza la agrupación en clústeres de k-medias. El módulo incluye técnicas de optimización integradas que son manipuladas por sus parámetros de clase. La clase del módulo tiene el siguiente aspecto:

class sklearn.cluster.KMeans(n_clusters=8, *, init= 'k-means++', n_init= 'auto', max_iter=300, tol=0.0001, verbose=0, random_state=Ninguno, copy_x=Verdadero, algorithm='lloyd')¹²

Los parámetros incluyen el número de clusters que hay que formar y el número de centroides que hay que generar (n_clusters). Hay dos métodos de inicialización disponibles: medias k++ y aleatorio. También incluye atributos para fijar el número máximo de iteraciones. Cada iteración comienza particionando el conjunto de datos en el valor del parámetro n_clustersparameter.

Estas bibliotecas se emplean para generar un conjunto de datos de prueba y realizar agrupaciones:

import pandas as pd 
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

Beneficios y desventajas

Ventajas

Algunos de los beneficios habituales del agrupamiento de medidas K en las aplicaciones de machine learning son:

Sencillo: el agrupamiento de medias K es fácil de entender y poner en práctica. Es la técnica de aprendizaje automático no monitorear más popular.

Rápido: la agrupación en clústeres K-means está diseñada con un enfoque iterativo computacionalmente simple. El algoritmo de agrupación en clústeres k-means es más rápido que el agrupamiento jerárquico que implica la construcción de una estructura de clústeres en forma de árbol y requiere calcular la distancia por pares entre todos los puntos de datos.

Escalable: las medias K también son fácilmente escalables a grandes conjuntos de datos y se generaliza a clústeres de diferentes formas y tamaños, lo que es ideal para el análisis de clústeres. Dado que el algoritmo es tan eficiente desde el punto de vista computacional, es más escalable y adecuado para grandes conjuntos de datos en comparación con otros métodos.

Desventajas

Algunos desafíos comunes asociados con la agrupación en clústeres k-means incluyen:

Dependencia de los parámetros de entrada: La agrupación en clústeres de K-means depende de los parámetros de entrada configurados correctamente. La inicialización del centroide y el número de clústeres adecuados es impecable para obtener resultados de clúster significativos. Una inicialización incorrecta del centroide puede provocar un aumento del tiempo de ejecución y asignaciones de clústeres de baja calidad. Se realizaron muchas investigaciones para mejorar el procedimiento de inicialización del centroide para obtener mejores resultados de agrupación en clústeres y un tiempo de convergencia más rápido.

Posible bajo rendimiento en determinados conjuntos de datos: las medias k funcionan de forma eficaz cuando el conjunto de datos contiene clústeres de tamaño similar y no hay valores atípicos ni variaciones de densidad notables. K-means funciona mal cuando el conjunto de datos contiene muchas variaciones o es muy dimensional. Los datos que no se alinean con ciertos supuestos del conjunto de datos pueden hacer que k-means produzca clústeres de baja calidad.¹³ Por ejemplo, los clústeres de tamaños desiguales pueden sesgar los centroides hacia los grupos más grandes, lo que provoca sesgos y errores de clasificación entre los grupos más pequeños. Para resolver este problema, las medias k se pueden generalizar mediante modelos probabilísticos, como el nodo de mezcla gaussiana.

Impacto significativo de los valores atípico: los valores atípicos tienen un impacto significativo en los resultados de la agrupación en clústeres de medias k. Los diferentes clústeres deben estar muy separados, pero no tanto como para sesgar los puntos de datos. Es importante tener en cuenta las suposiciones de los datos antes de aplica medias K. Las medias K son especialmente sensibles a los valores atípicos, ya que su objetivo es determinar los centroides promediando los valores con un clúster. Esta sensibilidad hace que sea propenso al sobreajuste para incluir estos valores atípicos.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

¿Qué es la agrupación en clústeres k-means?

Autores

¿Qué es la agrupación en clústeres k-means?

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

¿Cómo funciona la agrupación en clústeres de k-means?

Inicializar k

Asignar centroides

Decodificación de la IA: Resumen semanal de noticias

Métricas de evaluación de clusters

Inercia

El índice de Dunn

Optimización del rendimiento de k-means

Inicialización de los centroides del clúster

K-means ++

Elegir el número óptimo de clústeres

El método del codo

Aplicaciones en machine learning

Entrenamiento de modelos k-means con python

Beneficios y desventajas

Ventajas

Desventajas

Recursos