Attribution des valeurs manquantes
Le rapport d'audit répertorie le pourcentage d'enregistrements complets pour chaque champ, ainsi que le nombre de valeurs valides, de valeurs nulles et de valeurs non renseignées. Vous pouvez choisir d'attribuer les valeurs manquantes appropriées à des champs spécifiques, puis de générer un super noeud pour appliquer ces transformations.
- Dans la colonne Attribuer une entrée manquante, spécifiez le type de valeur à attribuer, le cas échéant. Vous pouvez choisir d'attribuer des valeurs non renseignées ou nulles, ou les deux, ou d'indiquer une condition ou une expression personnalisée sélectionnant les valeurs à attribuer.
Plusieurs types de valeur manquante sont reconnus par IBM® SPSS Modeler :
- Valeurs système nulles ou manquantes. Ces valeurs sont des valeurs "non-chaîne" qui ne sont pas renseignées dans la base de données ou dans le fichier source, et qui n'ont pas été spécifiquement définies comme "manquantes" dans un noeud source ou un noeud Typer. Les valeurs manquantes système sont affichées sous la forme $null$. Les chaînes vides ne sont pas considérées comme des valeurs nulles dans IBM SPSS Modeler, même si elles peuvent être traitées comme telles par certaines bases de données.
- Chaînes vides et espaces blancs. Les chaînes vides et les espaces blancs (chaînes sans caractère visible) sont traités différemment des valeurs nulles. Dans la plupart des cas, les chaînes vides sont considérées comme des espaces blancs. Par exemple, si vous choisissez de traiter les espaces blancs comme blancs dans un noeud source ou un noeud Typer, ce paramètre s'applique également aux chaînes vides.
- Valeurs manquantes définies par l'utilisateur ou vides. Ces valeurs sont des valeurs, telles que
inconnu,99ou–1, qui sont explicitement définies comme manquantes dans un noeud source ou type. Vous pouvez également, si vous le souhaitez, préciser si les valeurs nulles et les espaces blancs doivent être traités comme des blancs ; un traitement spécial leur est alors appliqué et ils sont exclus de la plupart des calculs. Par exemple, vous pouvez utiliser la fonction@BLANKpour traiter comme des blancs ces valeurs, ainsi que d'autres types de valeur manquante.
- Dans la colonne Méthode, spécifiez la méthode à utiliser.
Les méthodes suivantes sont disponibles pour attribuer des valeurs manquantes :
Colonne fixe. Remplacement par une valeur fixe (soit la moyenne du champ, soit la moitié de l'intervalle, soit une constante que vous indiquez).
Aléatoire. Remplacement par une valeur aléatoire fondée sur une loi normale ou uniforme.
Expression. Permet d'indiquer une expression personnalisée. Par exemple, vous pourriez remplacer les valeurs par une variable globale créée par le noeud V. globales.
Algorithme. Remplacement par une valeur prévue par un modèle fondé sur l'algorithme C&RT. Chaque champ auquel une valeur est attribuée à l'aide de cette méthode est associé à un modèle C&RT distinct et à un noeud Remplacer qui remplace les valeurs non renseignées et les valeurs nulles par la valeur prédite par le modèle. Ensuite, un noeud Filtrer est utilisé pour supprimer les champs de prévision générés par le modèle.
- Pour générer un super noeud Valeurs manquantes, choisissez les options suivantes :
La boîte de dialogue Super noeud des valeurs manquantes s'affiche.
- Sélectionnez Tous les champs ou Champs sélectionnés uniquement, puis indiquez une taille d'échantillon si vous le souhaitez. (L'échantillon spécifié est un pourcentage. Par défaut, 10 % des enregistrements sont échantillonnés.)
- Cliquez sur OK pour ajouter le super noeud généré à l'espace de travail de flux.
- Reliez le super noeud au flux pour appliquer les transformations.
Dans le super noeud, une combinaison de noeuds Remplacer, Filtrer et de nugget de modèle est utilisée. Pour comprendre le fonctionnement du super noeud, vous pouvez l'éditer et cliquer sur Zoom avant, puis ajouter, éditer ou supprimer des noeuds spécifiques dans le super noeud pour en affiner le comportement.