Introduction à la modélisation

Ce tutoriel fournit une introduction à la modélisation avec SPSS® Modeler. Un modèle est un ensemble de règles, de formules ou d'équations qui peuvent être utilisées pour prédire un résultat à partir d'un ensemble de champs ou de variables d'entrée. Par exemple, un établissement financier peut utiliser un modèle pour prédire si les demandeurs de prêt sont susceptibles de présenter un risque faible ou élevé, en se basant sur les informations déjà connues à leur sujet.

Aperçu du tutoriel

Regarder la vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches présentés dans cette documentation.

Essayez le tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Tâche 1 : Ouvrez le projet exemple.
Tâche 2 : Examiner les nœuds Data Asset et Type
Tâche 3 : Configurer le nœud Modélisation
Tâche 4 : Explorer le modèle
Tâche 5 : Évaluer le modèle
Tâche 6 : Évaluer le modèle à l'aide de nouvelles données

Exemple de flux de modélisation et d'ensemble de données

Ce tutoriel utilise le flux Introduction à la modélisation dans le projet exemple. Le fichier de données utilisé est tree_credit.csv. L'image suivante illustre le déroulement type du modélisateur.

La capacité à prédire un résultat est l'objectif central de l'analyse prédictive, et la compréhension du processus de modélisation est la clé pour utiliser SPSS Modeler les flux.

Le modèle présenté dans cet exemple montre comment une banque peut prédire si les futurs demandeurs de prêt risquent de se trouver en défaut de paiement. Ces clients ont déjà contracté des emprunts auprès de la banque, leurs données sont donc enregistrées dans la base de données de la banque. Le modèle utilise les données des clients pour déterminer leur probabilité de défaut de paiement.

Les données qui alimentent un modèle constituent une partie importante de celui-ci. La banque tient à jour une base de données contenant des informations historiques sur ses clients, notamment s'ils ont remboursé leurs prêts (notation de crédit = bonne) ou s'ils sont en défaut de paiement (notation de crédit = mauvaise). La banque souhaite utiliser ces données existantes pour construire le modèle. Les champs suivants sont utilisés :

Nom de zone	Description
Conditions_crédit	Conditions de crédit : 0=Mauvaises, 1=Bonnes, 9=valeurs manquantes
Age	Age en années
Revenu	Niveau de revenu : 1=Bas, 2=Moyen, 3=Elevé
Cartes_crédit	Nombre de cartes de crédit possédées : 1=Moins de cinq, 2=Cinq ou plus
Education	Niveau d'éducation : 1=Lycée, 2=Université
Prêts_voiture	Nombre de prêts voiture en cours : 1=Aucun ou un, 2=Plus de deux

Cet exemple utilise un modèle d'arbre de décision qui classe les enregistrements (et prédit une réponse) à l'aide d'une série de règles de décision.

Par exemple, cette règle de décision classe un dossier comme ayant une bonne cote de crédit lorsque le revenu se situe dans la fourchette moyenne et que le nombre de cartes de crédit est inférieur à 5.

IF income = Medium 
AND cards <5
THEN -> 'Good'

À partir d'un modèle d'arbre de décision, vous pouvez analyser les caractéristiques de deux groupes de clients et prédire les risques de non-remboursement.

Bien que cet exemple utilise un modèle CHAID (Chi-squared Automatic Interaction Detection), il s'agit d'une introduction générale, et la plupart des concepts s'appliquent de manière générale à d'autres types de modélisation dans SPSS Modeler.

Tâche 1 : Ouvrir le projet exemple

Le projet exemple contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous ne disposez pas encore du projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite ces étapes pour ouvrir le projet exemple :

Dans Cloud Pak for Data, dans le menu Navigation , sélectionnez Projets > Tous les projets.
Cliquez sur le projet « SPSS Modeler ».
Cliquez sur l'onglet Actifs pour afficher les ensembles de données et les flux du modélisateur.

Vérifiez vos progrès

L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec le modèle de flux associé à ce tutoriel.

Exemple de projet

haut de page

Tâche 2 : Examiner les nœuds Data Asset et Type

Introduction à la modélisation Le flux du modélisateur comprend plusieurs nœuds. Suivez ces étapes pour examiner les nœuds Data Asset et Type.

Dans l'onglet Assets, ouvrez le flux Introduction to Modeling modeler et attendez que le canevas se charge.
Double-cliquez sur le tree_credit.csv nœud. Ce nœud est un nœud Data Asset qui pointe vers le tree_credit.csv fichier dans le projet. Si vous spécifiez des mesures dans le nœud source, vous n'avez pas besoin d'inclure un nœud Type distinct dans le flux.
Vérifiez les propriétés du format de fichier.
Facultatif : cliquez sur Aperçu des données pour afficher l'ensemble complet des données.
Double-cliquez sur le nœud Type. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données contenues dans le champ) et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Le niveau de mesure est une catégorie qui indique le type de données du champ. Le fichier de données source utilise trois niveaux de mesure différents :
- Un champ continu (tel que le Age champ ) contient des valeurs numériques continues.
- Un champ nominal (tel que le Education champ ) comporte deux valeurs distinctes ou plus : dans ce cas, College ou High school.
- Un champ ordinal (tel que le Income level champ ) décrit des données comportant plusieurs valeurs distinctes qui ont un ordre inhérent : dans ce cas, Low Medium, et High.
Figure 3 noeud Typer

Pour chaque champ, le nœud Type spécifie également un rôle afin d'indiquer la fonction de chaque champ dans la modélisation. Le rôle est défini sur Cible pour le champ Credit rating, qui indique si un client est en défaut de paiement sur son prêt. La cible est le champ pour lequel vous souhaitez prédire la valeur.

Les autres champs ont le rôle défini sur Entrée. Les champs d'entrée sont quelquefois désignés sous le nom de prédicteurs, ou champs dont les valeurs sont utilisées par l'algorithme de modélisation pour prédire la valeur du champ cible.
Facultatif : cliquez sur Aperçu des données pour afficher les données avec les propriétés de type appliquées.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le nœud Type. Vous êtes maintenant prêt à configurer le nœud Modélisation.

haut de page

Tâche 3 : Configurer le nœud Modélisation

Un nœud de modélisation génère un nugget de modèle lorsque le flux s'exécute. Cet exemple utilise un nœud CHAID. CHAID, ou Chi-squared Automatic Interaction Detection (détection automatique des interactions par le test du chi carré), est une méthode de classification qui construit des arbres de décision à l'aide d'un type particulier de statistiques appelées statistiques du chi carré. Le nœud utilise des statistiques du chi carré pour déterminer les meilleurs emplacements pour effectuer les divisions dans l'arbre de décision. Suivez ces étapes pour configurer le nœud Modélisation :

Double-cliquez sur le nœud « Cote de crédit (CHAID) » pour afficher ses propriétés.
Dans la section Champs, notez l'option Utiliser les paramètres définis dans ce nœud. Cette option indique au nœud d'utiliser la cible et les champs spécifiés ici au lieu d'utiliser les informations de champ dans le nœud Type. Pour ce tutoriel, laissez l'option Utiliser les paramètres définis dans ce nœud désactivée.
Développez la section Objectifs. Dans ce cas, les valeurs par défaut sont appropriées. Votre objectif est de créer un nouveau modèle, de créer un modèle standard et de générer un nœud de modèle après exécution.
Développez la section Règles d'arrêt. Pour que l'arborescence reste assez simple dans cet exemple, limitez sa croissance en augmentant le nombre minimum de cas pour les nœuds parents et enfants.
1. Sélectionnez Utiliser la valeur absolue.
2. Définir les enregistrements minimums dans la branche parent à 400.
3. Définir les enregistrements minimums dans la branche enfant sur 200.
Cliquez sur Sauvegarder.
Passez la souris sur le nœud « Credit rating (CHAID) » (Notation de crédit) et cliquez sur l'icône « Run » ( Exécuter).

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le flux avec les résultats du modèle. Vous êtes maintenant prêt à explorer le modèle.

haut de page

Tâche 4 : Explorer le modèle

L'exécution du flux du modélisateur ajoute un élément de modèle au canevas avec un lien vers le nœud de modélisation à partir duquel il a été créé. Suivez ces étapes pour afficher les détails du modèle :

Dans le volet Sorties et modèles, cliquez sur le modèle nommé Notation de crédit pour afficher le modèle.
Cliquez sur Informations sur le modèle pour afficher les informations de base sur le modèle.
Cliquez sur Importance des caractéristiques pour voir l'importance relative de chaque prédicteur dans l'estimation du modèle. Ce graphique montre que le niveau de revenu est clairement le facteur le plus important dans ce cas, suivi du nombre de cartes de crédit.
Figure 4 Graphique d'importance des caractéristiques
Cliquez sur Règles de décision principales pour afficher les détails sous forme d'ensemble de règles, c'est-à-dire une série de règles pouvant être utilisées pour attribuer des enregistrements individuels à des nœuds enfants en fonction des valeurs de différents champs de saisie. Une prédiction « Bon » ou « Mauvais » est renvoyée pour chaque nœud terminal de l'arbre de décision. Les nœuds terminaux sont les nœuds de l'arbre qui ne sont pas divisés davantage. Dans chaque cas, la prédiction est déterminée par le mode, ou la réponse la plus courante, pour les enregistrements qui se trouvent dans ce nœud.
Figure 5. Nugget de modèle CHAID, ensemble de règles
Cliquez sur Diagramme arborescent pour voir le même modèle sous forme d'arborescence, avec un nœud à chaque point de décision. Passez le pointeur sur une branche ou un noeud pour en afficher les détails.
Figure 6 Diagramme d'arbre dans le nugget de modèle

En regardant le début de l'arbre, le premier nœud (nœud 0) donne un résumé de tous les enregistrements du jeu de données. Un peu plus de 40 % des observations de ce jeu de données sont classées comme risquées. 40 % est une proportion assez élevée, mais l'arbre pourrait donner des indices sur les facteurs qui pourraient en être responsables.

La première distinction est faite en fonction du niveau de revenu. Les enregistrements dans lesquels le niveau de revenu se trouve dans la catégorie Low (Faible) sont affectés au noeud 2 et il n'est pas surprenant de voir que cette catégorie contient le plus fort pourcentage de non-remboursements de prêts. Il apparaît évident qu'accorder un prêt aux clients de cette catégorie présente un risque élevé. Cependant, près de 18 % des clients de cette catégorie n'ont pas fait défaut, ce qui signifie que la prédiction n'est pas toujours correcte. Aucun modèle ne peut réellement prédire toutes les réponses, mais un bon modèle doit vous permettre de prédire la réponse la plus problable pour chaque enregistrement, sur la base des données disponibles.

De la même manière, si vous examinez les clients à revenus élevés (nœud 1), vous constatez que la plupart d'entre eux (plus de 88 %) présentent un faible risque. Mais plus d'un client sur dix est resté en défaut de paiement. Les critères d'octroi de prêts peuvent-ils être affinés davantage afin de minimiser le risque dans ce domaine?

Remarquez comment le modèle a divisé ces clients en deux sous-catégories (nœuds 4 et 5), en fonction du nombre de cartes de crédit détenues. Pour les clients à revenus élevés, si la banque n'accorde des prêts qu'aux clients possédant moins de cinq cartes de crédit, elle peut augmenter son taux de réussite de 88 % à près de 97 %, un résultat encore plus satisfaisant.

Figure 7 Clients à hauts revenus avec moins de cinq cartes de crédit

Mais qu'en est-il des clients appartenant à la catégorie Revenu moyen (noeud 3) ? Ils se répartissent bien plus équitablement entre les classements Good (Bon) et Bad (Mauvais). Une fois encore, les sous-catégories (nœuds 6 et 7 dans ce cas) peuvent être utiles. Cette fois, prêter uniquement aux clients à revenus moyens possédant moins de cinq cartes de crédit fait passer le pourcentage de classements Bon de 58 % à 86 %, ce qui constitue une amélioration significative.

Figure 8 Vue sous forme d'arbre des clients à revenu moyen

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre les détails du modèle. Vous êtes maintenant prêt à évaluer le modèle.

haut de page

Tâche 5 : Évaluer le modèle

Vous pouvez parcourir le modèle pour comprendre le fonctionnement du scoring. Cependant, pour évaluer la précision du modèle, vous devez noter certains enregistrements. L'évaluation des résultats consiste à comparer les résultats réels aux réponses prédites par le modèle. Pour évaluer le modèle, vous pouvez noter les mêmes enregistrements que ceux utilisés pour estimer le modèle. Vous pouvez comparer les réponses observées et prévues en comparant les mêmes enregistrements. Suivez ces étapes pour évaluer le modèle :

Attachez le nœud Table au modèle nugget.
Passez la souris sur le nœud Table et cliquez sur l'icône Exécuter.
Dans le volet Résultats et modèles, cliquez sur les résultats portant le nom Tableau pour afficher les résultats.
Le tableau affiche les scores prédits dans le $R-Credit rating champ créé par le modèle. Vous pouvez comparer ces valeurs au champ Credit rating d'origine qui contient les réponses réelles.
Par convention, les noms des champs générés lors de la notation sont basés sur le champ cible, mais avec un préfixe standard.
- $G et $GE sont des préfixes pour les prédictions générées par le modèle linéaire généralisé
- $R est le préfixe utilisé pour les prédictions générées par le modèle CHAID
- $RC correspond aux valeurs de confiance
- $X est généralement généré à l'aide d'un ensemble
- $XR, $XS, $XF sont utilisés comme préfixes lorsque le champ cible est un champ continu, catégoriel, défini ou indicateur
Une valeur de confiance est la propre estimation du modèle, sur une échelle de 0,0 à 1,0, de l'exactitude de chaque valeur prédite.

Figure 9 Table affichant les scores générés et les valeurs de confiance

Comme prévu, la valeur prédite correspond aux réponses réelles pour de nombreux enregistrements, mais pas pour tous. La raison à cela est que chaque noeud terminal CHAID comporte un ensemble de réponses. La prédiction correspond à la plus courante, mais elle est erronée pour toutes les autres dans ce nœud. (Rappelez-vous la minorité de 18 % de clients à faibles revenus qui n'ont pas fait défaut).

Pour éviter ce problème, vous pouvez continuer à diviser l'arbre en branches de plus en plus petites jusqu'à ce que chaque nœud soit pur à 100 %; tous bons ou tous mauvais, sans réponses mixtes. Mais un tel modèle est complexe et peu susceptible de s'appliquer facilement à d'autres ensembles de données.

Pour savoir exactement combien de prédictions sont correctes, vous pouvez parcourir le tableau et compter le nombre d'enregistrements où la valeur du champ prédit $R-Credit rating correspond à la valeur de Credit rating. Cependant, le plus simple est d'utiliser un nœud Analyse, qui suit automatiquement les enregistrements où ces valeurs correspondent.
Connectez le modèle nugget au nœud Analysis.
Passez la souris sur le nœud Analyse, puis cliquez sur l'icône Exécuter .
Dans le volet Résultats et modèles, cliquez sur les résultats portant le nom Analyse pour afficher les résultats.
L'analyse montre que pour 1960 des 2464 enregistrements (plus de 79 %), la valeur prédite par le modèle correspondait à la réponse réelle.

Figure 10. Résultats d'analyse comparant les réponses observées et les réponses prédites

Ce résultat est limité par le fait que les enregistrements que vous avez notés sont les mêmes que ceux que vous avez utilisés pour estimer le modèle. Dans une situation réelle, vous pouvez utiliser un nœud Partition pour diviser les données en échantillons distincts pour l'entraînement et l'évaluation. En utilisant un échantillon pour générer le modèle et un autre pour le tester, vous pouvez obtenir une meilleure indication de sa capacité à généraliser à d'autres ensembles de données.

Vous pouvez utiliser le nœud Analyse pour tester le modèle par rapport à des enregistrements dont vous connaissez déjà le résultat réel. L'étape suivante illustre comment vous pouvez utiliser le modèle pour noter les enregistrements dont vous ne connaissez pas le résultat. Par exemple, cet ensemble de données pourrait inclure des personnes qui ne sont pas actuellement clientes de la banque, mais qui constituent des cibles potentielles pour un mailing promotionnel.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le flux avec les résultats obtenus. Vous êtes maintenant prêt à noter le modèle avec de nouvelles données.

haut de page

Tâche 6 : Évaluer le modèle à l'aide de nouvelles données

Auparavant, vous avez noté les enregistrements utilisés pour estimer le modèle afin de pouvoir évaluer sa précision. Cet exemple évalue un ensemble d'enregistrements différent de celui utilisé pour créer le modèle. L'évaluation de la précision est l'un des objectifs de la modélisation avec un champ cible. Vous étudiez des dossiers dont vous connaissez l'issue afin d'identifier des tendances qui vous permettront de prédire des résultats que vous ne connaissez pas encore.

Vous pouvez mettre à jour le nœud Data Asset ou Import existant pour qu'il pointe vers un autre fichier de données. Vous pouvez également ajouter un nœud Data Asset ou Import qui lit les données que vous souhaitez noter. Dans tous les cas, le nouvel ensemble de données doit contenir les mêmes champs d'entrée que ceux utilisés par le modèle (Age, Income level, Education, etc.), mais pas le champ cible Credit rating.

Vous pouvez également ajouter le nugget de modèle à n'importe quel flux qui inclut les champs de saisie attendus. Que la lecture se fasse à partir d'un fichier ou d'une base de données, le type de source n'a pas d'importance si les noms et les types des champs correspondent à ceux utilisés par le modèle.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le flux complet.

haut de page

Récapitulatif

L'exemple Introduction à la modélisation de flux illustre les étapes de base pour créer, évaluer et noter un modèle.

Le nœud Modélisation estime le modèle en étudiant les enregistrements dont le résultat est connu et crée un modèle nugget. Ce processus est parfois appelé « entraînement du modèle ».
Le nugget de modèle peut être ajouté à n'importe quel flux contenant les champs attendus pour évaluer les enregistrements. En effectuant le scoring des enregistrements pour lesquels vous connaissez déjà le résultat (les clients existants par exemple), vous pouvez évaluer la performance du modèle.
Une fois que vous êtes satisfait des performances du modèle, vous pouvez évaluer de nouvelles données (telles que celles relatives à des clients potentiels) afin de prédire leur réaction.
Les données utilisées pour entraîner ou estimer le modèle peuvent être qualifiées de données analytiques ou historiques. Les données de notation peuvent également être appelées données opérationnelles.

Etapes suivantes

Vous êtes maintenant prêt à essayer d'autres SPSS Modeler tutoriels.