Prévoir le taux de désabonnement dans le secteur des télécommunications

Ce tutoriel permet de créer un modèle de régression logistique, qui est une technique statistique permettant de classer des enregistrements en fonction des valeurs des champs de saisie. Il s'agit d'un procédé analogue à la régression linéaire, mais qui utilise un champ cible catégoriel plutôt qu'un champ numérique.

Par exemple, supposons qu'un fournisseur de services de télécommunications s'inquiète du nombre de clients qu'il perd au profit de ses concurrents. Si les données d'utilisation du service permettent de prédire les clients susceptibles de passer à un autre fournisseur, les offres peuvent être personnalisées afin de retenir autant de clients que possible.

Aperçu du tutoriel

Regarder la vidéo Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit. Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches présentés dans cette documentation.

Essayez le tutoriel

Dans ce tutoriel, vous exécutez les tâches suivantes :

Tâche 1 : Ouvrir le projet exemple
Tâche 2 : Examiner le nœud Data Asset and Type (Ressource de données et type)
Tâche 3 : Vérifier le nœud Filtre
Tâche 4 : Construire le modèle
Tâche 5 : Générer le modèle

Exemple de flux de modélisation et d'ensemble de données

Ce tutoriel utilise le flux « Telecommunications Churn » (Taux de désabonnement dans les télécommunications) du projet exemple. Le fichier de données utilisé est telco.csv. L'image suivante illustre le déroulement type du modélisateur.

Cet exemple explique comment se servir des données d'utilisation pour prédire la perte de clients (attrition). Etant donné que la cible présente deux catégories distinctes, un modèle binomial est utilisé. Si la cible comporte plusieurs catégories, un modèle multinomial peut être créé à la place.

L'image suivante montre l'ensemble de données utilisé avec ce flux de modélisation.

Figure 2. Ensemble de données échantillon

Tâche 1 : Ouvrez le projet exemple.

Le projet exemple contient plusieurs ensembles de données et des exemples de flux de modélisation. Si vous ne disposez pas encore du projet exemple, reportez-vous à la rubrique Tutoriels pour créer le projet exemple. Suivez ensuite ces étapes pour ouvrir le projet exemple :

Dans Cloud Pak for Data, dans le menu Navigation , sélectionnez Projets > Tous les projets.
Cliquez sur le projet « SPSS Modeler ».
Cliquez sur l'onglet Actifs pour afficher les ensembles de données et les flux du modélisateur.

Vérifiez vos progrès

L'image suivante montre l'onglet Actifs du projet. Vous êtes maintenant prêt à travailler avec le modèle de flux associé à ce tutoriel.

Exemple de projet

haut de page

Tâche 2 : Examiner le nœud Data Asset and Type (Ressource de données et type)

Le taux de désabonnement dans le secteur des télécommunications comprend plusieurs nœuds. Suivez ces étapes pour examiner les nœuds Data Asset et Type :

Dans l'onglet Actifs, ouvrez le flux du modélisateur de désabonnement aux services de télécommunication et attendez que le canevas se charge.
Double-cliquez sur le telco.csv nœud. Ce nœud est un nœud Data Asset qui pointe vers le telco.csv fichier dans le projet.
Vérifiez les propriétés du format de fichier.
Facultatif : cliquez sur Aperçu des données pour afficher l'ensemble complet des données.
Double-cliquez sur le nœud Type. Ce nœud spécifie les propriétés des champs, telles que le niveau de mesure (le type de données que contient le champ) et le rôle de chaque champ en tant que cible ou entrée dans la modélisation. Assurez-vous que tous les niveaux de mesure sont correctement réglés. Par exemple, la plupart des champs dont les valeurs sont 0.0 et 1.0 peuvent être considérés comme des indicateurs, mais certains champs, tels que le sexe, sont plus précisément considérés comme des champs nominaux à deux valeurs.

Figure 3 Niveaux de mesure

Notez que churn est défini comme un indicateur avec un rôle cible. Le rôle pour tous les autres champs est défini sur Entrée.
Double-cliquez sur le nœud de modélisation churn (sélection de caractéristiques) pour afficher ses propriétés. Vous pouvez utiliser un nœud Sélection de caractéristiques pour supprimer les prédicteurs ou les données qui n'apportent aucune information utile sur la relation entre le prédicteur et la cible.
Passez la souris sur le churn (sélection de caractéristiques) nœud et cliquez sur Courir l'icône .
Dans le volet Sorties et modèles, cliquez sur le premier modèle de la liste intitulé « churn » pour afficher les détails du modèle.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre les détails du modèle. Vous êtes maintenant prêt à vérifier le nœud Filtre.

haut de page

Tâche 3 : Vérifier le nœud Filtre

Seules certaines données contenues dans le telco.csv fichier de données sont utiles pour prédire le taux de désabonnement. Vous pouvez utiliser le filtre pour sélectionner uniquement les données considérées comme importantes pour être utilisées comme prédicteurs (les champs marqués comme Importants dans le modèle généré lors de la tâche précédente). Suivez ces étapes pour afficher et vérifier le nœud Filtre :

Double-cliquez sur le nœud Fonctionnalités importantes (filtre) pour afficher ses propriétés.
1. Notez que ce nœud filtre uniquement les champs sélectionnés : tenure, age, address, income, ed, employ, et plus encore. Les autres domaines sont exclus de cette analyse.
  
  Figure 4 Nœud de filtre Fonctionnalités importantes
2. Cliquez sur Annuler.
Double-cliquez sur le nœud de sortie 28 Fields (Data Audit) après le nœud Filter.
1. Passez la souris sur le nœud Audit des données, puis cliquez sur l'icône Exécuter .
2. Dans le volet Résultats et modèles, cliquez sur les résultats portant le nom Audit des données pour afficher le résultat.
3. Consultez la colonne % Terminé, qui vous permet d'identifier les champs comportant un grand nombre de données manquantes. Dans notre exemple, le seul champ à amender est logtoll, qui est complet à moins de 50 %.
  
  Figure 5. Sortie de 28 champs
4. Fermez la sortie.
Double-cliquez sur le supernœud Imputation des valeurs manquantes.
1. Cliquez sur Afficher le supernœud.
2. Double-cliquez sur le nœud Fill logtoll (Filler).
  Les nœuds de remplissage sont utilisés pour remplacer les valeurs des champs et modifier le stockage. Vous pouvez choisir de remplacer des valeurs en fonction d'une condition CLEM spécifiée, telle que @BLANK(FIELD). Vous pouvez également choisir de remplacer tous les blancs ou les valeurs nulles par une valeur spécifique. Les nœuds de remplissage sont souvent utilisés avec le nœud Type pour remplacer les valeurs manquantes.
  Dans la section Remplir les champs, vous pouvez spécifier les champs de l'ensemble de données dont vous souhaitez examiner et remplacer les valeurs. Dans ce cas, la logtoll colonne est spécifiée avec une option Valeurs vides et nulles dans la section Remplacer.
  
  Figure 6 Supernœud d'imputation des valeurs manquantes avec propriétés de remplissage
3. Cliquez sur Retour au flux précédent.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante illustre le flux. Vous êtes maintenant prêt à construire le modèle.

haut de page

Tâche 4 : Construire le modèle

Vous créez un modèle qui utilise le nœud Logistic. Suivez ces étapes pour construire le modèle :

Double-cliquez sur le nœud Churn (Logistic), après le super-nœud Missing Value Imputation, pour afficher ses propriétés.
Dans la section Paramètres du modèle, sélectionnez la procédure binomiale.
- Un modèle binomial est utilisé lorsque le champ cible est un indicateur ou un champ nominal comportant deux valeurs distinctes.
- Un modèle multinomial est utilisé lorsque le champ cible est un champ nominal comportant plus de deux valeurs.
Ensuite, sélectionnez la méthode Forwards Stepwise.
Dans la section Options avancées, sélectionnez le mode Expert.
Cliquez sur Sortie. Sélectionnez A chaque étape, Historique des itérations et Estimations des paramètres, puis cliquez sur OK.

Figure 7 Options de nœuds logistiques

Icône du point de contrôle Vérifiez vos progrès

L'image suivante illustre le flux. Vous êtes maintenant prêt à générer le modèle.

haut de page

Tâche 5 : Générer le modèle

Suivez ces étapes pour générer un modèle nugget à partir du nœud Logistic :

Passez la souris sur le nœud Churn (Logistique) et cliquez sur l'icône Exécuter .
Dans le volet Résultats et modèles, cliquez sur le modèle de désabonnement pour afficher les résultats.

La page Variables dans l'équation affiche la cible (taux de désabonnement) et les entrées (champs prédictifs) utilisées par le modèle. Ces domaines sont choisis selon la méthode Forwards Stepwise, et non à partir de la liste complète soumise pour examen.

Pour évaluer l'adéquation du modèle à vos données, plusieurs diagnostics sont disponibles dans les paramètres du nœud expert lorsque vous créez le flux.

Sachez également que ces résultats sont établis uniquement d'après les données d'apprentissage. Pour évaluer dans quelle mesure le modèle peut être généralisé à d'autres données dans le monde réel, vous utilisez un nœud Partition afin de conserver un sous-ensemble d'enregistrements à des fins de test et de validation.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre les résultats du modèle.

Figure 8 Variables du modèle dans le tableau des équations

haut de page

Récapitulatif

Cet exemple a montré comment utiliser les données d'utilisation pour prédire la perte de clients (churn) en construisant un modèle binomial, car la cible comporte deux catégories distinctes.

Etapes suivantes

Vous êtes maintenant prêt à essayer d'autres SPSS® Modeler tutoriels.