Opciones de modelo para el nodo de clúster bietápico

Nombre del modelo. Puede generar el nombre del modelo de forma automática basándose en el campo objetivo o de ID (o en el nombre del tipo de modelo si se especifica ningún campo objetivo), o bien especificar un nombre personalizado.

Utilice datos en particiones. Si se ha definido un campo de partición, esta opción garantiza que sólo se utilicen los datos de la partición de entrenamiento para la generación del modelo.

Estandarizar campos numéricos. De forma predeterminada, el nodo Bietápico estandariza todos los campos de entrada numéricos a la misma escala, con una media de 0 y una varianza de 1. Para conservar la escala original de los campos numéricos, anule la selección de esta opción. Los campos simbólicos no se ven afectados.

Excluir valores atípicos. Seleccione esta opción para que los registros que no parezcan encajar en un clúster significativo se excluyan automáticamente del análisis. De este modo evitará que estos casos distorsionen los resultados.

La detección de valores atípicos se produce durante el paso de preclúster. Cuando se selecciona esta opción, los subclústeres con pocos registros relativos a otros subclústeres se consideran valores atípicos potenciales y se vuelve a crear el árbol de subclústeres excluyendo esos registros. El tamaño por debajo del cual se considera que los subclústeres contienen posibles valores atípicos está controlado por la opción Porcentaje. Algunos de esos registros de valores atípicos potenciales pueden añadirse a los subclústeres creados de nuevo, si son lo suficientemente similares a alguno de los nuevos perfiles de subclústeres. Los demás valores atípicos potenciales que no se puedan fundir se considerarán valores atípicos, se añadirán a un clúster "ruido" y se excluirán del paso de agrupación en clústeres jerárquica.

Al puntuar datos con un modelo Bietápico que utiliza el tratamiento de los valores atípicos, los nuevos casos que estén a una distancia de umbral excesiva (basándose en el logaritmo de la verosimilitud) del clúster significativo más cercano, se consideran valores atípicos y se asignan al clúster "ruido" con el nombre -1.

Etiqueta de clúster. Especifique el formato del campo de pertenencia al clúster generado. La pertenencia a un clúster se puede indicar con una Cadena con el Prefijo de etiqueta especificado (por ejemplo "Clúster 1", "Clúster 2", etc.) o con un Número.

Calcular automáticamente número de clústeres. El clúster Bietápico puede analizar rápidamente un gran número de soluciones de clúster para seleccionar el número óptimo de clústeres para los datos de entrenamiento. Especifique un rango de soluciones que comprobar estableciendo el número Máximo y Mínimo de clústeres.

Especificar número de clústeres. Si conoce el número de clústeres que incluir en el modelo, seleccione esta opción e introduzca dicho número.

Medida de distancia. Esta opción determina cómo se calcula la similaridad entre dos clústeres.

  • Log-verosimilitud. La medida de la verosimilitud realiza una distribución de probabilidad entre las variables. Las variables continuas se supone que tienen una distribución normal, mientras que las variables categóricas se supone que son multinomiales. Se supone que todas las variables son independientes.
  • Euclídea. La medida euclídea es la distancia según una "línea recta" entre dos clústeres. Sólo se puede utilizar cuando todas las variables son continuas.

Criterio de agrupación en clústeres. Esta opción determina cómo el algoritmo de agrupación en clústeres determina el número de clústeres. Se puede especificar tanto el criterio de información bayesiano (BIC) como el criterio de información de Akaike (AIC).