Introduction à la modélisation

Un modèle est un ensemble de règles, de formules, ou d'équations pouvant être utilisées pour prédire un résultat en fonction d'un ensemble de champs ou de variables d'entrée. Par exemple, une institution financière peut utiliser un modèle pour prédire si les emprunteurs représentent un risque important ou peu de risque, en fonction des informations déjà connues sur le passé de ces emprunteurs.

La capacité à prédire un résultat est l'objectif central de l'analyse prédictive, et la compréhension du processus de modélisation est essentielle pour l'utilisation d'IBM® SPSS Modeler.

Figure 1. Modèle d'arbre de décision simple
Modèle d'arbre de décision simple

Cet exemple utilise un modèle d'arbre décision qui classifie les enregistrements (et prédit une réponse) à l'aide d'une série de règles de décisions, par exemple :

Si revenu = Moyen 
Et cartes <5
Alors -> 'Bon'

Bien que cet exemple utilise un modèle CHAID (Chi-Squared Automatic Interaction Detection), il est destiné à fournir une introduction générale, et la plupart des concepts s'appliquent globalement aux autres types de modélisation dans IBM SPSS Modeler.

Pour comprendre tous les modèles, vous devez d'abord comprendre les données qu'ils contiennent. Les données de cet exemple contiennent des informations sur les clients d'une banque. Les champs suivants sont utilisés :

Nom du champ Description
Conditions_crédit Conditions de crédit : 0=Mauvaises, 1=Bonnes, 9=valeurs manquantes
Âge Age en années
Revenu Niveau de revenu : 1=Bas, 2=Moyen, 3=Elevé
Cartes_crédit Nombre de cartes de crédit possédées : 1=Moins de cinq, 2=Cinq ou plus
Education Niveau d'éducation : 1=Lycée, 2=Université
Prêts_voiture Nombre de prêts voiture en cours : 1=Aucun ou un, 2=Plus de deux

La banque gère une base de données contenant des informations sur les clients qui ont contracté un prêt, notamment sur le respect de leur engagement de remboursement (conditions de crédit = bonnes) ou le non-respect de leur engagement (conditions de crédit = mauvaises). A l'aide de ces données, la banque peut créer un modèle qui lui permettra de prédire les probabilités de remboursement des futurs emprunteurs.

A partir d'un modèle d'arbre de décision, vous pouvez analyser les caractéristiques de deux groupes de clients et prédire les risques de non-remboursement.

Cet exemple utilise le flux nommé modelingintro.str, disponible dans le dossier Demos du sous-dossier des flux. Le fichier de données est tree_credit.sav. Pour plus d'informations, voir la rubrique Dossier Demos.

Regardons le flux de plus près.

  1. Dans le menu principal, sélectionnez les options suivantes :

    Fichier > Ouvrir un flux

  2. Cliquez sur l'icône de la pépite d'or dans la barre d'outils de la boîte de dialogue Ouvrir et choisissez le dossier Demos.
  3. Double-cliquez sur le dossier des flux.
  4. Double-cliquez sur le fichier modelingintro.str.

Suivant