Ajuste de distribuciones

Una distribución estadística es la frecuencia teórica de la ocurrencia de los valores que puede tomar una variable. En el nodo Ajustar simulación, se compara un conjunto de distribuciones estadísticas teóricas con cada uno de los campos de datos. Las distribuciones disponibles al ajuste se describen en el tema Distribuciones. Los parámetros de la distribución teórica se ajustan para dar el mejor ajuste a los datos conforme una medición de la bondad del ajuste, ya sea el criterio de Anderson-Darling o el criterio de Kolmogorov-Smirnov. El resultado del ajuste de distribución llevado cabo por el nodo Ajustar simulación muestra qué distribuciones se han ajustado, las mejores estimaciones de parámetros para cada distribución y en qué medida la distribución se ajusta a los datos. Durante el ajuste de distribución, también se calculan las correlaciones entre los campos con tipos de almacenamiento numérico y las contingencias entre campos con una distribución categórica. Los resultados del ajuste de distribución se utilizan para crear un nodo Generar simulación.

Antes de que ajustarse las distribuciones a los datos, se examinan los primeros 1000 registros en busca de datos ausentes. Si faltan demasiados valores, el ajuste de distribuciones no será posible. En tal caso, deberá decidir cuál de las opciones siguientes procede:
  • Utilizar un nodo anterior en la ruta para eliminar los registros a los que les falten valores.
  • Utilizar un nodo anterior en la ruta para asignar los valores que falten.
El ajuste de distribuciones no excluye los valores de usuario ausente. Si los datos tienen valores de usuario ausente y se desea excluirlos del ajuste de distribuciones, dichos valores deberían establecerse a valores perdidos del sistema.

El rol de un campo no se tiene en cuenta cuando se ajustan las distribuciones. Por ejemplo, los campos con el rol Destino se tratan del igual que los campos con los roles de Entrada, Ninguno, Ambos, Partición División, Frecuencia e ID.

Los campos se tratan de forma diferente durante el ajuste de distribuciones según su tipo de almacenamiento y nivel de medición. El tratamiento de los campos durante el ajuste de distribuciones se describen en la tabla siguiente.

Tabla 1. Ajuste de distribuciones en función del tipo de almacenamiento y del nivel de medición de los campos
Tipo de almacenamiento     Nivel de medición      
  Continuo Categórica Señalar Nominal Ordinal Sin tipo
Cadena Imposible   Se ajustan las distribuciones categórica, dice y fija.      
Entero            
Real            
Hora Se ajustan todas las distribuciones. Se calculan las correlaciones y las contingencias.   Se ajusta la distribución categórica. No se calculan las correlaciones.   Se ajustan las distribuciones binomial, binomial negativa y Poisson, y se calculan las correlaciones. El campo se ignora y no se pasa al nodo Generar simulación.
Fecha            
Marca de tiempo            
Desconocido     El tipo de almacenamiento correspondiente se determina a partir de los datos.      

Los campos con el nivel de medición ordinal se tratan como campos continuos y se incluyen en la tabla de correlaciones del nodo Generar simulación. Si se desea ajustar una distribución distinta de la binomial, binomial negativa o Poisson a un campo ordinal, deberá cambiarse a continuo el nivel de medición del campo. Si se ha definido previamente una etiqueta para cada valor de un campo ordinal y luego se cambia el nivel de medición a continuo, se perderán las etiquetas.

Durante el ajuste de distribución, los campos que tienen valores únicos no se tratan de forma distinta de los campos con varios valores. Los campos con tipo de almacenamiento hora, fecha o fecha y hora se tratan como numéricos.

Ajuste de distribuciones a campos de división

Si los datos contienen un campo de división y se desea que el ajuste de distribución se lleve a cabo de forma independiente para cada división, deberán transformarse los datos utilizando un nodo Reestructurar anterior en la ruta. Mediante un nodo Reestructurar, genere un campo nuevo para cada valor del campo de división. Estos datos reestructurados podrán utilizarse luego en un ajuste de distribución en el nodo Ajustar simulación.