Ajuste de distribuciones
Una distribución estadística es la frecuencia teórica de la ocurrencia de los valores que puede tomar una variable. En el nodo Ajustar simulación, se compara un conjunto de distribuciones estadísticas teóricas con cada uno de los campos de datos. Las distribuciones disponibles al ajuste se describen en el tema Distribuciones. Los parámetros de la distribución teórica se ajustan para dar el mejor ajuste a los datos conforme una medición de la bondad del ajuste, ya sea el criterio de Anderson-Darling o el criterio de Kolmogorov-Smirnov. El resultado del ajuste de distribución llevado cabo por el nodo Ajustar simulación muestra qué distribuciones se han ajustado, las mejores estimaciones de parámetros para cada distribución y en qué medida la distribución se ajusta a los datos. Durante el ajuste de distribución, también se calculan las correlaciones entre los campos con tipos de almacenamiento numérico y las contingencias entre campos con una distribución categórica. Los resultados del ajuste de distribución se utilizan para crear un nodo Generar simulación.
- Utilizar un nodo anterior en la ruta para eliminar los registros a los que les falten valores.
- Utilizar un nodo anterior en la ruta para asignar los valores que falten.
El rol de un campo no se tiene en cuenta cuando se ajustan las distribuciones. Por ejemplo, los campos con el rol Destino se tratan del igual que los campos con los roles de Entrada, Ninguno, Ambos, Partición División, Frecuencia e ID.
Los campos se tratan de forma diferente durante el ajuste de distribuciones según su tipo de almacenamiento y nivel de medición. El tratamiento de los campos durante el ajuste de distribuciones se describen en la tabla siguiente.
| Tipo de almacenamiento | Nivel de medición | |||||
|---|---|---|---|---|---|---|
| Continuo | Categórica | Señalar | Nominal | Ordinal | Sin tipo | |
| Cadena | Imposible | Se ajustan las distribuciones categórica, dice y fija. | ||||
| Entero | ||||||
| Real | ||||||
| Hora | Se ajustan todas las distribuciones. Se calculan las correlaciones y las contingencias. | Se ajusta la distribución categórica. No se calculan las correlaciones. | Se ajustan las distribuciones binomial, binomial negativa y Poisson, y se calculan las correlaciones. | El campo se ignora y no se pasa al nodo Generar simulación. | ||
| Fecha | ||||||
| Marca de tiempo | ||||||
| Desconocido | El tipo de almacenamiento correspondiente se determina a partir de los datos. |
Los campos con el nivel de medición ordinal se tratan como campos continuos y se incluyen en la tabla de correlaciones del nodo Generar simulación. Si se desea ajustar una distribución distinta de la binomial, binomial negativa o Poisson a un campo ordinal, deberá cambiarse a continuo el nivel de medición del campo. Si se ha definido previamente una etiqueta para cada valor de un campo ordinal y luego se cambia el nivel de medición a continuo, se perderán las etiquetas.
Durante el ajuste de distribución, los campos que tienen valores únicos no se tratan de forma distinta de los campos con varios valores. Los campos con tipo de almacenamiento hora, fecha o fecha y hora se tratan como numéricos.
Ajuste de distribuciones a campos de división
Si los datos contienen un campo de división y se desea que el ajuste de distribución se lleve a cabo de forma independiente para cada división, deberán transformarse los datos utilizando un nodo Reestructurar anterior en la ruta. Mediante un nodo Reestructurar, genere un campo nuevo para cada valor del campo de división. Estos datos reestructurados podrán utilizarse luego en un ajuste de distribución en el nodo Ajustar simulación.