Opciones de modelo de nodo de red bayesiana

Nombre del modelo. Puede generar el nombre del modelo de forma automática basándose en el campo objetivo o de ID (o en el nombre del tipo de modelo si se especifica ningún campo objetivo), o bien especificar un nombre personalizado.

Utilice datos en particiones. Si se ha definido un campo de partición, esta opción garantiza que sólo se utilicen los datos de la partición de entrenamiento para la generación del modelo.

Construir modelo para cada división. Genera un modelo diferente para cada valor posible de campos de entrada que se especifican como campos de división. Consulte Generación de modelos divididos para obtener más información.

Partición. Este campo permite especificar un campo usado para dividir los datos en muestras independientes para las fases de entrenamiento, prueba y validación de la generación de modelos. Si usa una muestra para generar el modelo y otra muestra distinta para comprobarlo, podrá obtener una buena indicación de la bondad del modelo a la hora de generar conjuntos de datos de mayor tamaño similares a los datos actuales. Si se han definido varios campos de partición mediante nodos Tipo o Partición, se deberá seleccionar un campo de partición simple en la pestaña Campos en todos los nodos de modelado que usen la partición. (Si solamente hay una partición, se usará automáticamente siempre que se active la partición.) Debe tener en cuenta que al aplicar la partición seleccionada en su análisis, también debe activar la partición en la pestaña Opciones del modelo para el nodo. (Si se elimina la selección de esta opción, se posibilita la desactivación de la partición sin cambiar la configuración del campo.)

Divididos. En modelos divididos, seleccione el campo o campos de división. Se trata de una acción similar a establecer el rol del campo en Dividir en un nodo Tipo. Sólo puede designar campos con un nivel de medición de Marca, Nominal, Ordinal o Continuo como campos de división. Los campos seleccionados como campos de división no se pueden utilizar como campos de destino, entrada, partición, frecuencia o ponderación. Consulte Generación de modelos divididos para obtener más información.

Continuar entrenando modelo existente. Si selecciona esta opción, los resultados mostrados en la pestaña Modelo del nugget de modelo se generan y actualizan cada vez que se ejecuta el modelo. Por ejemplo, puede hacerlo cuando se haya añadido un origen de datos nuevo o actualizado a un modelo existente.

Nota: Sólo puede actualizar la red existente; no puede añadir o eliminar nodos o conexiones. Cada vez que entrena el modelo, la red tendrá la misma forma, sólo cambiarán las probabilidades condicionales y la importancia del predictor. No importa si los nuevos datos son muy similares a los datos antiguos, ya que espera que los mismos elementos sean significativos; sin embargo, si desea comprobar o actualizar los elementos significativos (en oposición a su significancia), deberá crear un nuevo modelo, es decir una nueva red.

Tipo de estructura. Seleccione la estructura que desea utilizar cuando cree la red bayesiana:

  • TAN. El modelo de redes Naïve Bayes aumentado a árbol (TAN) crea un modelo de red bayesiana simple que es una mejora respecto al modelo Naïve Bayes estándar. Se debe a que cada predictor depende de otro predictor además de la variable objetivo, aumentando la precisión de la clasificación.
  • Manto de Markov. Esto selecciona el conjunto de nodos del conjunto de datos que contiene los padres de la variable objetivo, sus hijos y los padres de sus hijos. Esencialmente, un manto de Markov identifica todas las variables de la red que son necesarias para predecir la variable objetivo. Este método de generar redes se considera más preciso; sin embargo, con conjuntos de datos más grandes se necesita más tiempo, debido al elevado número de variables implicadas. Para reducir el procesamiento, puede utilizar las opciones de selección de características de la pestaña Experto para seleccionar las variables que están muy relacionadas con la variable objetivo.

Incluir paso de procesamiento previo de selección de características. Si selecciona esta casilla podrá utilizar las opciones de selección de características de la pestaña Experto.

Método de aprendizaje de parámetro. Los parámetros de la red bayesiana hacen referencia a las probabilidades condicionales de cada nodo teniendo en cuenta los valores de sus padres. Son dos selecciones posibles que puede utilizar para controlar la tarea de estimar las tablas de probabilidades condicionales entre los nodos si se conocen los valores de los padres:

  • Verosimilitud máxima. Seleccione esta casilla si utiliza un conjunto de datos grande. Ésta es la selección predeterminada.
  • Ajuste bayesiano de recuentos de casillas de tamaño reducido. En conjuntos de datos más pequeños, existe el peligro de ajustar el modelo en exceso, así como la posibilidad de un elevado número de recuentos cero. Seleccione esta opción para evitar estos problemas, aplicando suavizado para reducir el efecto de cualquier recuento cero y los efectos de cálculos no fiables.