Evaluation des statistiques descriptives

Pour cet exemple, la sortie inclut:

  • Statistiques univariées
  • Tableau des tests t de variance à part, incluant les moyennes de sous-groupe lorsqu'une autre variable est présente ou manquante
  • Tableaux pour chaque variable catégorielle indiquant les fréquences des données manquantes pour chaque catégorie en fonction de chaque variable quantitative (échelle)
Figure 1 : Table de statistiques univariées
Table des statistiques univariées produite par l'analyse des valeurs manquantes.

Les statistiques univariées fournissent votre premier regard, variable par variable, sur l'étendue des données manquantes. Le nombre de valeurs non manquantes pour chaque variable apparaît dans la colonne N et le nombre de valeurs manquantes apparaît dans la colonne Effectif manquant . La colonne Pourcentage manquant affiche le pourcentage d'observations avec des valeurs manquantes et fournit une bonne mesure pour comparer l'étendue des données manquantes entre les variables. Le revenu (revenu du ménage en milliers) comporte le plus grand nombre d'observations avec des valeurs manquantes (17.9%), tandis que l' âge (âge en années) est le plus petit (2.5%). revenu possède également le plus grand nombre de valeurs extrêmes.

Figure 2. Tableau des tests t de variance distincte
Tableau des tests t de variance distincte produit par l'analyse des valeurs manquantes.

Le tableau des tests t de variance distincte peut aider à identifier les variables dont le motif de valeurs manquantes peut influencer les variables quantitatives (échelle). Le test t est calculé à l'aide d'une variable indicateur qui indique si une variable est présente ou manquante pour une observation individuelle. Les moyennes de sous-groupe de la variable indicateur sont également tabulées. Notez qu'une variable indicateur est créée uniquement si une variable comporte des valeurs manquantes dans au moins 5% des observations.

Il semble que les répondants plus âgés soient moins susceptibles de déclarer des niveaux de revenu. Lorsque le revenu est manquant, l' âge moyen est 49.73, comparé à 40.01 lorsque le revenu n'est pas manquant. En fait, le caractère manquant de revenu semble affecter la moyenne de plusieurs variables quantitatives (d'échelle). Il s'agit d'une indication que les données peuvent ne pas être complètement manquantes au hasard.

Figure 3 Tableau croisé pour l'état matrimonial [ situation familiale ]
Tableau croisé des catégories MaritalStatus et des variables indicatrices.

Les tableaux croisés des variables catégorielles et des variables indicatrices affichent des informations similaires à celles trouvées dans le tableau de test t de variance distincte. Les variables indicatrices sont à nouveau créées, sauf cette fois où elles sont utilisées pour calculer les fréquences dans chaque catégorie pour chaque variable catégorielle. Les valeurs peuvent vous aider à déterminer s'il existe des différences dans les valeurs manquantes entre les catégories.

Dans le tableau Situation familiale (Situation familiale), le nombre de valeurs manquantes dans les variables indicateur ne semble pas varier beaucoup entre les catégories Situation familiale . Le fait qu'une personne soit mariée ou non mariée ne semble pas avoir d'incidence sur l'absence de données pour l'une ou l'autre des variables quantitatives (échelle). Par exemple, les personnes non mariées ont signalé adresse (années en cours a) ddress 85.5% du temps, et les personnes mariées ont signalé la même variable 83.4% du temps. La différence est minime et probablement due au hasard.

Figure 4 Tableau croisé pour le niveau d'éducation [ ed ]
Tableau croisé des catégories EducationalLevel par rapport aux variables indicatrices.

Considérons maintenant le tableau croisé pour ed (Niveau de formation). Si un répondant a au moins fait des études collégiales, il est plus probable qu'il manque une réponse à la question de l'état civil. Au moins 98.5% des personnes interrogées n'ayant pas d'études collégiales ont déclaré une situation de famille. D'autre part, seulement 81.1% des personnes ayant obtenu un diplôme universitaire ont déclaré une situation de famille. Le nombre est encore plus faible pour ceux qui ont des études collégiales mais pas de diplôme.

Figure 5. Tableau croisé pour Retiré [ retirer ]
Tableau croisé des catégories RetirementStatus et des variables indicatrices.

Une différence plus drastique peut être observée dans la rubrique Retrait (Retiré). Ceux qui sont retraités sont beaucoup moins susceptibles de déclarer leur revenu que ceux qui ne sont pas retraités. Seuls 46.3% des clients retraités ont déclaré un niveau de revenu, tandis que le pourcentage de ceux qui ne sont pas retraités et qui ont déclaré un niveau de revenu était 83.7.

Figure 6 Tableau croisé pour le genre [ sexe ]
Tableau croisé des catégories Sexe par rapport aux variables indicatrices.

Une autre différence est apparente pour gender (Gender). Les informations d'adresse sont manquantes plus souvent pour les hommes que pour les femmes. Bien que ces écarts puissent être dus au hasard, cela semble peu probable. Les données ne semblent pas complètement manquantes au hasard.

Nous examinerons les tendances des données manquantes afin d'examiner cette question plus en détail.

Suivant