Clústeres de k-medias

El algoritmo k-medias es el algoritmo más usado de agrupación en clústeres que usa una medida de distancia explícita para particionar los conjuntos de datos en clústeres.

El concepto principal del algoritmo k-medias consiste en representar cada clúster por el vector de valores de atributo medios de todas las instancias de entrenamiento de los atributos numéricos y por el vector de valores modales (los más frecuentes) de los atributos nominales asignados a ese clúster. Esta representación de clúster se llama centro del clúster.

Se aplican las condiciones siguientes al centro del clúster:

  • El algoritmo trata los atributos continuos y los atributos nominales.
  • Los procesos de información de clúster y de modelado de clústeres se pueden manejar de forma computacionalmente eficiente aplicando la función de distancia para emparejar instancias con centros de clúster.