Collecte des données initiales
Cette phase de l'utilisation de CRISP-DM implique à présent l'accès aux données et leur insertion dans IBM® SPSS Modeler. Les données proviennent de sources variées, telles que :
- Données existantes. Cette catégorie comprend plusieurs types de données, telles que les données transactionnelles, les données issues d'enquêtes, les logs Web, etc. Evaluez ces données existantes pour voir si elles suffisent à répondre à vos besoins.
- Données acquises. Votre société utilise-t-elle des données d'appoint, telles que des données démographiques ? Si la réponse est non, peut-être faut-il envisager leur utilisation.
- Autres données. Si les sources ci-dessus ne répondent pas à vos besoins, vous devrez peut-être mener des enquêtes ou effectuer davantage de suivis afin de compléter les magasins de données existants.
Liste des tâches
Examinez les données de IBM SPSS Modeler et étudiez les questions suivantes. Veillez à noter vos résultats. Pour plus d'informations, voir la rubrique Elaboration d'un rapport sur la collecte des données.
- Quels sont les attributs (colonnes) de la base de données qui semblent les plus prometteurs ?
- Quels sont les attributs qui semblent sans intérêt et peuvent être exclus ?
- Le nombre de données permet-il de tirer des conclusions pouvant être généralisées ou d'effectuer des prévisions précises ?
- Les attributs sont-ils trop nombreux pour la méthode de modélisation choisie ?
- Opérez-vous la fusion de données issues de plusieurs sources ? Si oui, certains points risquent-ils de poser problème lors de la fusion ?
- Avez-vous envisagé le mode de traitement des valeurs manquantes dans chacune de vos sources de données ?