IBM SPSS Data Preparation utilise des techniques avancées pour rationaliser la phase de préparation des données et fournir des résultats d’analyse de données plus rapides et plus précis.
Ce module est inclus dans l’édition SPSS Professional pour le déploiement sur site et dans l’édition de base pour les plans d’abonnement.
La boîte de dialogue « Valider les données » permet de valider vos données. L’onglet des variables affiche les variables de votre fichier. Commencez par sélectionner les variables de votre choix et déplacez-les dans la liste « Variables d’analyse ».
Vous pouvez spécifier des vérifications de base à appliquer aux variables et aux cas de votre fichier. Par exemple, vous pouvez obtenir des rapports qui identifient des variables avec un pourcentage élevé de valeurs manquantes ou de cas vides.
Appliquez des règles à des variables individuelles qui identifient les valeurs non valides, soit des valeurs en dehors d’une plage valide ou des valeurs manquantes. Vous pouvez également créer vos propres règles, des règles de variable croisée ou appliquer des règles prédéfinies.
La préparation automatisée des données apporte des recommandations et permet aux utilisateurs d’explorer et d’examiner les recommandations.
La préparation manuelle des données est un processus complexe et chronophage. Lorsque vous avez besoin de résultats rapidement, la procédure ADP (Automatic Data Preparation) vous aide à détecter et à corriger les erreurs de qualité et à attribuer les valeurs manquantes en une seule étape et de façon efficace. La fonctionnalité ADP fournit un rapport facile à comprendre comprenant des recommandations et des visualisations exhaustives pour vous aider à déterminer les données les plus pertinentes à utiliser dans votre analyse.
Effectuez des vérifications automatiques des données et contribuez à éliminer les vérifications manuelles fastidieuses et chronophages en utilisant la procédure de validation des données. Cette procédure vous permet d’appliquer des règles pour effectuer des vérifications de données en fonction du niveau de mesure de chaque variable, qu’il soit catégoriel ou continu. Ensuite, déterminez la validité des données et supprimez ou corrigez les cas suspects comme vous le souhaitez avant l’analyse.
IBM SPSS Data Preparation comprend des fonctionnalités telles que la validation des données, la préparation automatisée des données, le regroupement optimal en catégories et l’identification des cas inhabituels.
Avec la procédure de regroupement optimal en catégories, vous pouvez utiliser plus précisément des algorithmes conçus pour les attributs nominaux, tels que les modèles Naive Bayes et logit. Le regroupement optimal en catégories vous permet de regrouper les variables d’échelle, ou de définir des césures pour elles.
Choisissez l’un de ces types de regroupement optimal pour le prétraitement des données avant la génération du modèle :
1) Non supervisé : créez des regroupements dont le nombre est égal.
2) Supervisé : prenez en compte la variable cible pour déterminer les césures. Cette méthode est plus précise que la méthode non supervisée, mais elle nécessite également plus de calculs.
3) Approche hybride : combinez les approches non supervisée et supervisée. Cette méthode est utile si vous avez une grande quantité de valeurs distinctes.