Imputation multiple

Le but de l'imputation multiple est de générer des valeurs possibles pour les valeurs manquantes et de créer ainsi plusieurs jeux de données "complets". Les procédures analytiques qui utilisent des jeux de données à imputation multiple produisent des sorties pour chaque jeu de données "complet" en plus de sorties regroupées en pool qui évaluent quels auraient été les résultats si le jeu de données d'origine ne contenait pas de valeurs manquantes. Ces résultats regroupés en pool sont généralement plus précis que ceux des méthodes d'imputation simple.

Considérations sur les données à imputation multiple

Variables d'analyse: Les variables d'analyse peuvent être :

  • Nominale. Une variable peut être traitée comme étant nominale si ses valeurs représentent des catégories sans classement intrinsèque (par exemple, le service de la société dans lequel travaille un employé). La région, le code postal ou l'appartenance religieuse sont des exemples de variables nominales.
  • Ordinaire. Une variable peut être traitée comme étant ordinale si ses valeurs représentent des catégories associées à un classement intrinsèque (par exemple, des niveaux de satisfaction allant de Très mécontent à Très satisfait). Exemples de variable ordinale : des scores d'attitude représentant le degré de satisfaction ou de confiance, et des scores de classement des préférences.
  • Échelle. Une variable peut être traitée comme une variable d'échelle (continue) si ses valeurs représentent des catégories ordonnées avec une mesure significative, de sorte que les comparaisons de distance entre les valeurs soient adéquates. L'âge en années et le revenu en milliers de dollars sont des exemples de variable d'échelle.

    La procédure considère que le niveau de mesure approprié a été assigné à toutes les variables, bien que vous puissiez changer provisoirement le niveau de mesure d'une variable en cliquant avec le bouton droit de la souris sur la variable dans la liste des variables source, puis en sélectionnant un niveau de mesure dans le menu contextuel. Pour modifier définitivement le niveau de mesure d'une variable, voir Niveau de mesure de la variable.

Dans la liste des variables, une icône indique le niveau de mesure et le type de données :

Tableau 1. Icônes de niveau de mesure
  Numérique Chaîne Date : Durée
Echelle (continue).
Icône d'échelle
non disponible
Icône de date d'échelle
Icône d'heure d'échelle
Ordinaux
Icône ordinale
Icône de chaîne ordinale
Icône de date ordinale
Icône d'heure ordinale
Nominal
Icône nominale
Icône de chaîne nominale
Icône de date nominale
Icône d'heure nominale

Pondérations de fréquence : Cette procédure utilise les pondérations d'effectifs (réplication). Les observations ayant une valeur de pondération de réplication négative ou nulle sont ignorées. Les pondérations non entières sont arrondies à l'entier le plus proche.

Pondération d'analyse : Les pondérations (de régression ou d'échantillon) d'analyse sont intégrées aux récapitulatifs des valeurs manquantes et aux modèles d'imputation appropriés. Les observations ayant une pondération d'analyse négative ou nulle sont exclues.

Echantillons complexes : La procédure d'Imputation multiple ne traite pas de manière explicite les strates, les clusters ou les autres structures d'échantillon complexes, bien qu'elle puisse accepter les pondérations d'échantillons finales sous la forme de variable de pondération d'analyse. Remarque : Actuellement, les procédures d'échantillonnage complexe n'analysent pas de manière automatique les jeux de données à imputation multiple. Pour obtenir la liste complète des procédures qui prennent en charge le regroupement en pool, voir Analyse des données d'imputation multiple.

Valeurs manquantes. Les valeurs manquantes utilisateur et système sont traitées comme des valeurs non valides, c'est-à-dire que ces deux types de valeurs manquantes sont remplacés lorsque des valeurs sont imputées et les deux sont traités comme valeurs non valides de variables utilisées comme prédicteurs dans les modèles d'imputation. Les valeurs manquantes utilisateur et système sont également traitées comme manquantes dans les analyses de valeurs manquantes.

Réplication de résultats (Imputer des valeurs de données manquantes) : Si vous souhaitez répliquer exactement vos résultats d'imputation, outre les mêmes paramètres de procédure, utilisez la même valeur d'initialisation pour le générateur de nombres aléatoires, le même ordre de données et le même ordre de variables.

  • Génération de nombres aléatoires : La procédure utilise la génération de nombres aléatoires pendant le calcul des valeurs imputées. Pour reproduire les mêmes résultats aléatoires à l'avenir, utilisez la même valeur d'initialisation pour le générateur de nombres aléatoires avant chaque exécution de la procédure d'imputation des valeurs de données manquantes. Pour plus d'informations, voir Générateurs de nombres aléatoires .
  • Tri par observation : Les valeurs sont imputées suivant l'ordre des observations.
  • Ordre des variables : La méthode d'imputation à spécification entièrement conditionnelle (FCS) impute des valeurs dans l'ordre spécifié dans la liste Variables d'analyse.

Il existe deux boîtes de dialogue associées à l'imputation multiple.

  • Analyser les motifs fournit des mesures descriptives des motifs des valeurs manquantes dans les données et peut être utile comme étape d'exploration avant l'imputation.
  • Imputer les valeurs de données manquantes est utilisé pour générer plusieurs imputations. Les jeux de données complets peuvent être analysés avec des procédures prenant en charge des jeux de données à imputation multiple. Voir Générateurs de nombres aléatoires pour des informations sur l'analyse des ensembles de données d'imputation multiple et une liste de procédures qui prennent en charge ces données.

Ces boîtes de dialogue collent la syntaxe de la commande MULTIPLE IMPUTATION .