Ajustement de distribution

Une distribution statistique représente la fréquence théorique de l'occurrence des valeurs qu'une variable peut prendre. Dans le noeud Simulation Fitting, un ensemble de distributions statistiques théoriques est comparé à chaque champ de données. Les distributions disponibles pour l'ajustement sont décrites dans la rubrique Distributions. Les paramètres de la distribution théorique sont ajustés pour s'adapter au mieux aux données en fonction de la mesure de la qualité d'ajustement ; il s'agit du critère Anderson-Darling ou Kolmogorov-Smirnov. Les résultats de l'ajustement de distribution par le noeud Simulation Fitting indiquent quelles distributions ont été ajustées, les meilleures estimations de paramètres pour chaque distribution et la qualité d'ajustement de chaque distribution aux données. Lors de l'ajustement de distribution, les corrélations entre les champs dotés d'un type de stockage numérique et les contingences entre les champs dotés d'une distribution catégorielle sont également calculées. Les résultats de l'ajustement de distribution sont utilisés pour créer un noeud Simulation Generate.

Avant que les distributions soient ajustées à vos données, les 1 000 premiers enregistrements sont examinés à la recherche de valeurs manquantes. S'il manque trop de valeurs, l'ajustement de distribution n'est pas possible. Vous devez alors décider si l'une des options suivantes est adaptée :

Utiliser un noeud en amont pour supprimer les enregistrements contenant des valeurs manquantes.
Utiliser un noeud en amont pour imputer des valeurs pour les valeurs manquantes.

L'ajustement de distribution n'exclut pas les valeurs manquantes de l'utilisateur. Si vos données contiennent des valeurs manquantes de l'utilisateur et que vous souhaitez qu'elles soient exclues de l'ajustement de distribution, vous devez définir ces valeurs en tant que valeurs système manquantes.

Le rôle d'un champ n'est pas pris en compte lorsque les distributions sont ajustées. Par exemple, les champs dotés du rôle Cible sont traités de la même façon que ceux dotés des rôles Entrée, Aucun, Les deux, Partition, Scission, Fréquence et ID.

Les champs sont traités différemment au cours de l'ajustement de distribution, selon le type de stockage et le niveau de mesure. Le traitement des champs lors de l'ajustement de distribution est décrit dans le tableau ci-dessous.

Tableau 1. Ajustement de distribution en fonction du type de stockage et du niveau de mesure des champs
Type de stockage			Niveau de mesure
	Continu	Catégoriel	Indicateur	Nominal	Ordinal	Sans type
Chaîne	Irréalisable		Les distributions catégorielles, dice et fixes sont ajustées
Entier
Réel
Temps	Toutes les distributions sont ajustées. Les corrélations et contingences sont calculées.		La distribution catégorielle est ajustée. Les corrélations ne sont pas calculées.		Les distributions binomiales, binomiales négatives et de Poisson sont ajustées et les corrélations sont calculées.	Le champ est ignoré et n'est pas transmis au noeud Simulation Generate.
Date
Horodatage
Inconnu			Le type de stockage approprié est déterminé à partir des données.

Les champs dotés du niveau de mesure ordinal sont traités comme des champs continus et sont inclus dans la table de corrélations dans le noeud Simulation Generate. Si vous voulez qu'une distribution qui n'est ni binomiale, ni binomiale négative, ni de Poisson soit ajustée sur un champ ordinal, vous devez modifier le niveau de mesure du champ en continu. Si vous avez défini au préalable un libellé pour chaque valeur d'un champ ordinal et que vous modifiez ensuite le niveau de mesure en continu, les libellés seront perdus.

Les champs dotés de valeurs uniques ne sont pas traités différemment des champs contenant plusieurs valeurs lors de l'ajustement de distribution. Les champs dont le type de stockage est Heure, Date ou Horodatage sont traités comme des champs numériques.

Ajustement des distributions aux champs de scission

Si vos données contiennent un champ de scission et que vous souhaitez que l'ajustement de distribution soit réalisé séparément pour chaque scission, vous devez transformer les données à l'aide d'un noeud Restructurer en amont. A l'aide du noeud Restructurer, générez un nouveau champ pour chaque valeur du champ de scission. Ces données restructurées peuvent ensuite être utilisées pour l'ajustement de distribution dans le noeud Simulation Fitting.