Uso de campos de frecuencia y ponderación

Los campos de frecuencia y ponderación se utilizan para, por ejemplo, dar una importancia adicional a unos registros sobre otros, porque sabe que una sección de la población no está totalmente representada en los datos de entrenamiento (ponderación) o porque un registro representa un número de casos idénticos (frecuencia).

  • los valores de un campo de frecuencia deben ser números enteros positivos. Los registros con una ponderación de frecuencias negativa o cero se excluyen del análisis. Las ponderaciones de frecuencias con valores no enteros se redondean al entero más cercano.
  • Los valores de ponderación de casos deben ser positivos, pero no es necesario que sean enteros. Los registros con una ponderación de casos negativa o cero se excluyen del análisis.

Puntuación de campos de frecuencia y ponderación

Los campos de frecuencia y ponderación se utilizan en modelos de entrenamiento, pero no se utilizan en la puntuación porque la puntuación de cada registro se basa en sus características independientemente de cuántos casos represente. Por ejemplo, suponga que tiene los datos en la tabla siguiente.

Tabla 1. Ejemplo de datos
Casado Respondido
No
   
No
No No
No No

Según esto, se llega a la conclusión de que tres de cada cuatro personas casadas responden a la promoción y dos de cada tres personas solteras no responden. Así se van a puntuar los nuevos registros en consecuencia, como se muestra en la siguiente tabla.

Tabla 2. Ejemplo de registros puntuados
Casado $-Responded $RP-Responded
0,75 (tres cuartos)
No No 0,67 (dos tercios)

Como alternativa, puede almacenar los datos de entrenamiento de forma más compacta, utilizando un campo de frecuencia, tal y como se muestra en la tabla siguiente.

Tabla 3. Ejemplo alternativo de registros puntuados
Casado Respondido Frecuencia
3
No 1
No 1
No No 2

Como esto representa exactamente el mismo conjunto de datos, creará el mismo modelo y predecirá respuestas basadas únicamente en el estado civil. Si tiene a diez personas casadas en sus datos de puntuación, predecirá para cada una de ellas independientemente de si se presentan como diez registros separados o como uno con un valor de frecuencia de 10. La ponderación, aunque generalmente no es un número entero, se puede considerar que indica de igual modo la importancia de un registro. Éste es el motivo de por qué los campos de frecuencia y ponderación no se utilizan cuando se puntúan registros.

Evaluación y comparación de modelos

Algunos tipos de modelo admiten campos de frecuencia, algunos admiten campos de ponderación y otros admiten los dos. Sin embargo, en todos los casos en los que se aplican, solo se utilizan para la creación de modelos y no se tienen en cuenta cuando se evalúan modelos mediante los nodos Evaluación o Análisis o cuando se clasifican modelos mediante la mayoría de los métodos admitidos por los nodos Clasificador automático y Autonumérico.

  • Al comparar modelos (por ejemplo, mediante diagramas de evaluación) se ignoran los valores de frecuencia y ponderación. Esto permite una comparación de nivel entre modelos que utilizan estos campos y modelos que no lo hacen, pero significa que, para una evaluación precisa, debe utilizarse un conjunto de datos que represente la población de manera precisa sin depender de un campo de frecuencia o ponderación. En la práctica, puede hacerlo asegurándose de que los modelos se evalúan mediante una muestra de comprobación en la que el valor del campo de frecuencia o ponderación siempre sea nulo o 1. (Esta restricción solo se aplica al evaluar modelos; si los valores de frecuencia o ponderación siempre fueran 1 para las muestras de entrenamiento y comprobación, no habría necesidad de utilizar estos campos en primer lugar.)
  • Si utiliza Clasificador automático, se puede tener en cuenta la frecuencia en caso de que se clasifiquen los modelos según Beneficio, de modo que este método se recomienda en ese caso.
  • Si es necesario, puede dividir los datos en muestras de entrenamiento y comprobación utilizando el nodo Partición.