Validación

La validación permite evaluar la bondad de la estructura de árbol cuando se generaliza para una mayor población. Hay dos métodos de validación disponibles: validación cruzada y validación por división muestral.

Validación cruzada

La validación cruzada divide la muestra en un número de submuestras o pliegues. A continuación, se generan los modelos de árbol, que no incluyen los datos de cada submuestra. El primer árbol se basa en todos los casos excepto los correspondientes al primer pliegue de la muestra; el segundo árbol se basa en todos los casos excepto los del segundo pliegue de la muestra y así sucesivamente. Para cada árbol se calcula el riesgo de clasificación errónea aplicando el árbol a la submuestra que se excluyó al generarse este.

  • Se puede especificar un máximo de 25 pliegues de la muestra. Cuanto mayor sea el valor, menor será el número de casos excluidos de cada modelo de árbol.
  • La validación cruzada genera un modelo de árbol único y final. La estimación de riesgo mediante validación cruzada para el árbol final se calcula como promedio de los riesgos de todos los árboles.

Validación por división muestral

Con la validación por división muestral, el modelo se genera utilizando una muestra de entrenamiento y después pone a prueba ese modelo con una muestra reservada.

  • Puede especificar un tamaño de la muestra de entrenamiento, expresado como un porcentaje del tamaño total de la muestra, o una variable que divida la muestra en muestras de entrenamiento y de comprobación.
  • Si utiliza una variable para definir las muestras de entrenamiento y de comprobación, los casos con un valor igual a 1 para la variable se asignarán a la muestra de entrenamiento y todos los demás casos se asignarán a la muestra de comprobación. Dicha variable no puede ser ni la variable dependiente, ni la de ponderación, ni la de influencia ni una variable independiente forzada.
  • Los resultados se pueden mostrar tanto para la muestra de entrenamiento como para la de comprobación, o sólo para esta última.
  • La validación por división muestral se debe utilizar con precaución en archivos de datos pequeños (archivos de datos con un número pequeño de casos). Si se utilizan muestras de entrenamiento de pequeño tamaño, pueden generarse modelos que no sean significativos, ya que es posible que no haya suficientes casos en algunas categorías para lograr un adecuado crecimiento del árbol.

Para validar un árbol de decisión

Esta característica requiere la opción Árboles de decisión.

  1. En los menús seleccione:

    Analizar > Clasificar > Árbol ...

  2. En el cuadro de diálogo Árboles de decisión principal, pulse en Validación.
  3. Seleccione Validación cruzada o Validación de muestra dividida.

Nota: ambos métodos de validación asignan casos a los grupos muestrales de forma aleatoria. Si desea poder reproducir exactamente los mismos resultados en un análisis subsiguiente, deberá definir la semilla de aleatorización (menú Transformar, Generadores de números aleatorios) antes de ejecutar el análisis la primera vez y, a continuación, restablecer la semilla a dicho valor para el subsiguiente análisis. Consulte el tema Generadores de números aleatorios para obtener más información.