Imputation des valeurs de données manquantes (Imputation multiple)
L'imputation des valeurs de données manquantes permet de générer des imputations multiples. Les jeux de données complets peuvent être analysés avec des procédures prenant en charge des jeux de données à imputation multiple. Pour plus d'informations sur l'analyse des jeux de données à imputation multiple et pour obtenir la liste des procédures prenant en charge ces données, voir Analyse de données à imputation multiple. Il s'agit d'une procédure d'Imputation multiple.
Exemple : Un fournisseur de services de télécommunication souhaite mieux comprendre les motifs d'utilisation des services dans sa base de données client. Il dispose de données complètes sur les services utilisés par les clients, mais les informations démographiques collectées par l'entreprise comportent certaines valeurs manquantes. De plus, ces valeurs ne sont pas manquantes de façon complètement aléatoire. Par conséquent, l'imputation multiple sera utilisée pour compléter le jeu de données. Démonstration
A partir des menus, sélectionnez :
- Sélectionnez au moins deux variables dans le modèle d'imputation. La procédure impute des valeurs multiples pour les données manquantes de ces variables.
- Spécifiez le nombre d'imputations à calculer. Par défaut, cette valeur est 5.
- Spécifiez un jeu de données ou un fichier de données au format IBM® SPSS Statistics dans lequel les données imputées devront être écrites.
Le jeu de données de sortie comprend les données d'observation initiales avec des données manquantes, ainsi qu'un ensemble d'observations avec des valeurs imputées pour chaque imputation. Par exemple, si le jeu de données initial comprend 100 observations et que vous ayez 5 imputations, le jeu de données de sortie comportera 600 observations. Toutes les variables dans le jeu de données d'entrée sont incluses dans le jeu de données de sortie. Les propriétés du dictionnaire (noms, libellés, etc.) des variables existantes sont copiées dans le nouveau jeu de données. Le fichier contient également une nouvelle variable, Imputation_, une variable numérique qui indique l'imputation (0 pour les données d'origine, ou 1..n pour les observations ayant des valeurs imputées).
La procédure définit automatiquement la variable Imputation_ comme variable de scission (consultez Scission d'un fichier) après la création du jeu de données de sortie. Si des scissions sont actives lorsque la procédure est exécutée, le jeu de données de sortie comprend un ensemble d'imputations pour chaque combinaison de valeurs de variables de scission.
Paramètres facultatifs
Pondération d'analyse : Cette variable contient des pondérations (de régression ou d'échantillon) d'analyse. La procédure intègre des pondérations d'analyse en régression et des modèles de classification utilisés pour imputer les valeurs manquantes. Les pondérations d'analyse sont également utilisées dans les récapitulatifs de valeurs imputées ; par exemple, la moyenne, l'écart type et l'erreur standard. Les observations ayant une pondération d'analyse négative ou nulle sont exclues.
Champs avec un niveau de mesure inconnu
L'alerte du niveau de mesure apparaît lorsque le niveau de mesure d'une ou de plusieurs variables (champs) du jeu de données est inconnu. Le niveau de mesure ayant une incidence sur le calcul des résultats de cette procédure, toutes les variables doivent avoir un niveau de mesure défini.
Analyser les données : Lit les données dans le jeu de données actifs et attribue le niveau de mesure par défaut à tous les champs ayant un niveau de mesure inconnu. Si le jeu de données est important, cette action peut prendre un certain temps.
Affecter manuellement : Ouvre une boîte de dialogue qui répertorie tous les champs ayant un niveau de mesure inconnu. Vous pouvez utiliser cette boîte de dialogue pour attribuer un niveau de mesure à ces champs. Vous pouvez également attribuer un niveau de mesure dans la vue de variable de l'éditeur de données.
Le niveau de mesure étant important pour cette procédure, vous ne pouvez pas accéder à la boîte de dialogue d'exécution de cette procédure avant que tous les champs n'aient des niveaux de mesure définis.
Cette procédure reproduit la syntaxe de commande MULTIPLE IMPUTATION.