Ajustement de distribution
Une distribution statistique représente la fréquence théorique de l'occurrence des valeurs qu'une variable peut prendre. Dans le noeud Simulation Fitting, un ensemble de distributions statistiques théoriques est comparé à chaque champ de données. Les distributions disponibles pour l'ajustement sont décrites dans la rubrique Distributions. Les paramètres de la distribution théorique sont ajustés pour s'adapter au mieux aux données en fonction de la mesure de la qualité d'ajustement ; il s'agit du critère Anderson-Darling ou Kolmogorov-Smirnov. Les résultats de l'ajustement de distribution par le noeud Simulation Fitting indiquent quelles distributions ont été ajustées, les meilleures estimations de paramètres pour chaque distribution et la qualité d'ajustement de chaque distribution aux données. Lors de l'ajustement de distribution, les corrélations entre les champs dotés d'un type de stockage numérique et les contingences entre les champs dotés d'une distribution catégorielle sont également calculées. Les résultats de l'ajustement de distribution sont utilisés pour créer un noeud Simulation Generate.
- Utiliser un noeud en amont pour supprimer les enregistrements contenant des valeurs manquantes.
- Utiliser un noeud en amont pour imputer des valeurs pour les valeurs manquantes.
Le rôle d'un champ n'est pas pris en compte lorsque les distributions sont ajustées. Par exemple, les champs dotés du rôle Cible sont traités de la même façon que ceux dotés des rôles Entrée, Aucun, Les deux, Partition, Scission, Fréquence et ID.
Les champs sont traités différemment au cours de l'ajustement de distribution, selon le type de stockage et le niveau de mesure. Le traitement des champs lors de l'ajustement de distribution est décrit dans le tableau ci-dessous.
| Type de stockage | Niveau de mesure | |||||
|---|---|---|---|---|---|---|
| Continu | Catégoriel | Indicateur | Nominal | Ordinal | Sans type | |
| Chaîne | Irréalisable | Les distributions catégorielles, dice et fixes sont ajustées | ||||
| Entier | ||||||
| Réel | ||||||
| Temps | Toutes les distributions sont ajustées. Les corrélations et contingences sont calculées. | La distribution catégorielle est ajustée. Les corrélations ne sont pas calculées. | Les distributions binomiales, binomiales négatives et de Poisson sont ajustées et les corrélations sont calculées. | Le champ est ignoré et n'est pas transmis au noeud Simulation Generate. | ||
| Date | ||||||
| Horodatage | ||||||
| Inconnu | Le type de stockage approprié est déterminé à partir des données. |
Les champs dotés du niveau de mesure ordinal sont traités comme des champs continus et sont inclus dans la table de corrélations dans le noeud Simulation Generate. Si vous voulez qu'une distribution qui n'est ni binomiale, ni binomiale négative, ni de Poisson soit ajustée sur un champ ordinal, vous devez modifier le niveau de mesure du champ en continu. Si vous avez défini au préalable un libellé pour chaque valeur d'un champ ordinal et que vous modifiez ensuite le niveau de mesure en continu, les libellés seront perdus.
Les champs dotés de valeurs uniques ne sont pas traités différemment des champs contenant plusieurs valeurs lors de l'ajustement de distribution. Les champs dont le type de stockage est Heure, Date ou Horodatage sont traités comme des champs numériques.
Ajustement des distributions aux champs de scission
Si vos données contiennent un champ de scission et que vous souhaitez que l'ajustement de distribution soit réalisé séparément pour chaque scission, vous devez transformer les données à l'aide d'un noeud Restructurer en amont. A l'aide du noeud Restructurer, générez un nouveau champ pour chaque valeur du champ de scission. Ces données restructurées peuvent ensuite être utilisées pour l'ajustement de distribution dans le noeud Simulation Fitting.