Pestaña Análisis del nodo Análisis

La pestaña Análisis permite especificar los detalles del análisis.

Matrices de coincidencias (para objetivos simbólicos o categóricos). Muestra el patrón de coincidencias entre cada campo generado (predicho) y su campo objetivo para objetivos categóricos (marca, nominal u ordinal). Se muestra una tabla con filas definidas por valores reales y columnas definidas por valores predichos, con el número de registros que tienen ese patrón en cada casilla. Esto es útil para identificar errores sistemáticos en las predicciones. Si existe más de un campo generado relacionado con el mismo campo de salida pero generado por modelos distintos, los casos en los que estos campos concuerdan y no concuerdan se cuentan y se muestran los totales. En los casos en los que concuerdan, se muestra otro conjunto de estadísticos correcto/incorrecto.

Evaluación del rendimiento. Muestra estadísticos de evaluación del rendimiento para modelos con resultados categóricos. Este estadístico, mostrado para cada categoría de los campos de salida, es una medida del contenido de información medio (en bits) del modelo para predecir registros pertenecientes a dicha categoría. Se tiene en cuenta la dificultad del problema de clasificación, de forma que las predicciones precisas para categorías inusuales obtendrán un índice de evaluación del rendimiento mayor que las predicciones precisas para categorías comunes. Si el modelo no hace más que adivinar una categoría, el índice de evaluación del rendimiento para esa categoría será 0.

Métricas de evaluación (AUC & Gini, clasificadores binarios solo). En el caso de los clasificadores binarios, esta opción informa de las métricas de evaluación de coeficiente Gini y AUC (Area Under Curve, área bajo la curva). Ambas métricas de evaluación se calculan de forma conjunta para cada modelo binario. Los valores de las métricas se notifican en una tabla en el navegador de salida de análisis.

La métrica de evaluación AUC se calcula como el área bajo una curva ROC (Receiver Operator Characteristic, característica de operador receptor) y es una representación escalar del rendimiento esperado de un clasificador. El AUC se sitúa siempre entre 0 y 1, y cuanto más alto es el valor, mejor es el clasificador. Una curva ROC diagonal entre las coordenadas (0,0) y (1,1) representa un clasificador aleatorio y tiene un AUC de 0,5. Así pues, un clasificador realista no tendrá un AUC de menos de 0,5.

La métrica de evaluación de coeficiente Gini se utiliza a veces como métrica de evaluación alternativa a la AUC, y ambas medidas están estrechamente relacionadas. El coeficiente Gini se calcula como dos veces el área comprendida entre la curva ROC y la diagonal, o como Gini = 2AUC – 1. El coeficiente Gini está siempre entre 0 y 1, y cuanto mayor es el número, mejor es el clasificador. El coeficiente Gini será negativo en el improbable caso de que la curva ROC esté por debajo de la diagonal.

Cifras de confianza (si están disponibles). Para los modelos que generan un campo de confianza, esta opción muestra estadísticos de los valores de confianza y su relación con las predicciones. Existen dos configuraciones para esta opción:

  • Umbral para. Muestra el nivel de confianza por encima del cual la precisión será el porcentaje especificado.
  • Mejora en la precisión. Muestra el nivel de confianza por encima del cual la precisión se mejorará en el valor especificado. Por ejemplo, si la precisión total es del 90% y esta opción se establece en 2,0, el valor mostrado será la confianza necesaria para una precisión del 95%.

Buscar campos predichos/predictores utilizando. Determina cómo se establece la correspondencia entre los campos predichos y el campo objetivo original.

  • Metadatos de campos de salida del modelo. Establece la correspondencia entre los campos predichos y el objetivo basándose en información del campo Modelo, lo que permite coincidencias incluso si se ha cambiado el nombre de un archivo predicho. También se puede acceder a la información del campo Modelo para cualquier campo predicho desde el cuadro de diálogo Valores mediante un nodo Tipo. Consulte el tema Utilización del cuadro de diálogo de valores para obtener más información. Las
  • Formato del nombre del campo. Establece la correspondencia entre campos basándose en la convención de nomenclatura. Por ejemplo, los valores predichos generados por un nugget de modelo C5.0 para un objetivo denominado respuesta deben encontrarse en un campo denominado $C-respuesta.

Separar por partición. Si se utiliza un campo de partición para dividir los registros en muestreos de entrenamiento, comprobación y validación, seleccione esta opción para mostrar los resultados de forma separada en cada partición. Consulte el tema Nodo Partición para obtener más información. Las

Nota: al separar en particiones, los registros con valores nulos en el campo de partición se excluyen del análisis. Esto nunca debería ser un problema si se utiliza un nodo Partición ya que este tipo de nodos no genera valores nulos.

Análisis definido por el usuario. Puede especificar su propio cálculo de análisis para utilizarlo al evaluar sus modelos. Utilice expresiones CLEM para especificar lo que debe calcularse para cada registro y cómo combinar las puntuaciones de nivel de registro en una puntuación global. Utilice las funciones @TARGET y @PREDICTED para hacer referencia al valor objetivo (resultado real) y al valor predicho, respectivamente.

  • Si. Especifique una expresión condicional si necesita utilizar cálculos distintos dependiendo de alguna condición.
  • Entonces. Especifique el cálculo si la condición Si es verdadera.
  • En caso contrario. Especifique el cálculo si la condición Si es falsa.
  • Utilizar. Seleccione un estadístico para calcular una puntuación global a partir de puntuaciones individuales.

Desglosar análisis por campos. Muestra los campos categóricos disponibles para desglosar el análisis. Además del análisis global, se mostrará un análisis independiente para cada categoría de campo de desglose.