Opciones de modelo para el nodo Autonumérico

La pestaña Modelo del nodo Autonumérico le permite especificar el número de modelos que se van a guardar, junto con los criterios empleados para compararlos.

Nombre del modelo. Puede generar el nombre del modelo de forma automática basándose en el campo objetivo o de ID (o en el nombre del tipo de modelo si se especifica ningún campo objetivo), o bien especificar un nombre personalizado.

Utilice datos en particiones. Si se ha definido un campo de partición, esta opción garantiza que sólo se utilicen los datos de la partición de entrenamiento para la generación del modelo.

Efectuar validación cruzada. La validación cruzada proporciona al modelo un conjunto de datos conocidos en el que se va a ejecutar el entrenamiento (un conjunto de datos de entrenamiento) y un conjunto de datos desconocidos para probar el modelo (conjunto de datos de validación o conjunto de pruebas). El objetivo de la validación cruzada es comprobar la capacidad del modelo para predecir nuevos datos que no se han utilizado para su estimación, con el fin de marcar problemas como un sobreajuste o un sesgo de selección.

Crear modelos divididos. Genera un modelo diferente para cada valor posible de campos de entrada que se especifican como campos de división. Consulte Generación de modelos divididos si desea obtener más información.

Clasificar modelos por. Especifique los criterios utilizados para comparar modelos.

  • Correlación. Correlación de Pearson entre el valor observado para cada registro y el valor predicho por el modelo. La correlación es una medida de asociación lineal entre dos variables, con valores cercanos a 1 que indican una relación más fuerte. (Los valores de correlación se encuentran en el rango de -1, para una relación negativa perfecta, y +1, para una relación positiva perfecta. El valor 0 indica la ausencia de relaciones lineales, mientras que un modelo con una correlación negativa estaría en el último puesto de la lista.)
  • Número de campos. Número de campos utilizados como predictores en el modelo. La selección de modelos que utilizan menos campos puede simplificar la preparación de datos y mejorar el rendimiento en algunos casos.
  • Error relativo. El error relativo es el cociente de la varianza de los valores observados de aquellos predichos por el modelo a la varianza de los valores observados de la media. En la práctica, compara el buen rendimiento del modelo con respecto a un modelo nulo o de interceptación que simplemente devuelve el valor medio del campo objetivo como la predicción. En un buen modelo, este valor debe ser inferior a 1, lo que indica que el modelo es más preciso que el modelo nulo. Un modelo con un error relativo superior a 1 es menos preciso que el modelo nulo y por lo tanto no es útil. En el caso de modelos Regresión lineal, el error relativo es igual al cuadrado de la correlación y no añade información nueva. En el caso de modelos no lineales, el error relativo no está relacionado con la correlación y proporciona una medida adicional para valorar el rendimiento del modelo.

Clasificar modelos usando. Si se está usando una partición, puede especificar si los rangos se basan en la partición de entrenamiento o en la partición de comprobación. En conjuntos de datos de gran tamaño, si usa una partición para el cribado preliminar de modelos, puede mejorar rendimiento en gran medida.

Número de modelos que se utilizarán. Especifica el número máximo de modelos que aparecerán en el nugget de modelo generado por el nodo. Los primeros modelos de la clasificación se enumeran en función del criterio de clasificación especificado. El aumento de este límite le permitirá comparar resultados de más modelos pero puede ralentizar el rendimiento. El valor máximo permitido es 100.

Calcular importancia del predictor. En el caso de modelos que produzcan una medida adecuada de importancia, puede mostrar un gráfico que indique la importancia relativa de cada predictor al estimar el modelo. Normalmente, desea centrar sus esfuerzos de modelado en los predictores que importan más y considera eliminar o ignorar los que importan menos. Tenga en cuenta que la importancia de predictor puede aumentar el tiempo necesario para calcular algunos modelos; además no se recomienda si sólo desea una amplia comparación entre varios modelos diferentes. Es de mayor utilidad una vez ha limitado su análisis a unos cuantos modelos que desee explorar más a fondo. Consulte Importancia del predictor para obtener más información.

No conservar modelos si. Especifica valores de umbral para la correlación, el error relativo y el número de campos utilizados. Los modelos que no cumplen alguno de estos criterios se descartarán y no se incluirán en el informe de resumen.

  • Correlación menor que. Correlación mínima (en cuanto a valor absoluto) para que un modelo se incluya en el informe de resumen.
  • Número de campos utilizados mayor que. Número máximo de campos que puede utilizar cualquier modelo que vaya a incluirse.
  • Error relativo mayor que. Error relativo máximo para cualquier modelo que vaya a incluirse.

Si lo desea, puede configurar el nodo para que se detenga la ejecución la primera vez que se genere un modelo que cumpla todos los criterios especificados. Consulte el tema Reglas de parada de nodos de modelado automático para obtener más información.