Démarrage rapide : Générer un modèle à l'aide de SPSS Modeler

Vous pouvez créer, former et déployer des modèles à l'aide de SPSS Modeler. Lisez en plus sur SPSS Modeler, puis regardez une vidéo et suivez un tutoriel qui convient aux débutants et qui ne nécessite aucun codage.

Services requis
Watson Studio (qui comprend SPSS Modeler )
Watson Machine Learning

Votre flux de travaux de base inclut les tâches suivantes :

  1. Permet de créer un projet. Les projets sont l'endroit où vous collaborez avec d'autres personnes sur les données.
  2. Ajoutez un flux SPSS Modeler au projet.
  3. Configurez les nœuds sur la grille et exécutez le flux.
  4. Passez en revue les détails du modèle et enregistrez le modèle.
  5. Déployez et testez votre modèle.

En savoir plus sur SPSS Modeler

Avec les flux SPSS Modeler, vous pouvez développer rapidement des modèles prédictifs à l'aide de l'expertise métier et les déployer dans des opérations métier afin d'améliorer la prise de décision. Conçue autour du logiciel client SPSS Modeler établi de longue date et du modèle CRISP-DM standard de l'industrie qu'il utilise, l'interface des flux facilite l'ensemble du processus d'exploration de données, depuis les données jusqu'à l'obtention de meilleurs résultats commerciaux.

SPSS Modeler propose une variété de méthodes de modélisation tirées de l'apprentissage automatique, de l'intelligence artificielle et des statistiques. Les méthodes disponibles dans la palette de noeuds vous permettent d'extraire de nouvelles informations de vos données et de développer des modèles prédictifs. Chaque méthode possède ses propres avantages et est donc plus adaptée à certains types de problème spécifiques.

Visionnez une vidéo sur la création d'un modèle à l'aide de SPSS Modeler

Regarder la vidéo Regardez cette vidéo pour voir comment créer et exécuter un flux SPSS Modeler pour former un modèle d'apprentissage automatique. La vidéo commence par la création et l'exécution par l'utilisateur d'un SPSS Modeler flux pour former un modèle d'apprentissage automatique dans watsonx.

Avertissement concernant la vidéo : certaines étapes mineures et certains éléments graphiques de cette vidéo peuvent différer de votre déploiement. Cette vidéo montre l'interface Cloud Pak for Data as a Service utilisateur.

Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches présentés dans cette documentation.


Suivez un tutoriel pour créer un modèle à l'aide de SPSS Modeler

Dans ce tutoriel, vous exécutez les tâches suivantes :

Ce tutoriel dure environ 30 minutes.

Données exemple

L'ensemble de données utilisé dans ce tutoriel provient de l'Université de Californie, Irvine, et est le résultat d'une étude approfondie basée sur les admissions à l'hôpital sur une période de temps. Le modèle utilisera trois facteurs importants pour aider à prédire la maladie rénale chronique.




Conseils pour suivre ce tutoriel
Voici quelques conseils pour réussir ce tutoriel.

Configurez les fenêtres de votre navigateur

Pour profiter pleinement de ce tutoriel, ouvrez votre compte dans une fenêtre de navigateur et gardez cette page de tutoriel ouverte dans une autre fenêtre afin de pouvoir passer facilement de l'une à l'autre. Envisagez de disposer les deux fenêtres du navigateur côte à côte afin de faciliter le suivi.

Tutoriel et interface utilisateur côte à côte

Conseil : si vous rencontrez une visite guidée pendant que vous suivez ce tutoriel dans l'interface utilisateur, cliquez sur Peut-être plus tard.



Tâche 1 : Ouvrir un projet

Vous avez besoin d'un projet pour stocker le SPSS Modeler flux. Vous pouvez utiliser un projet existant ou créer un projet.

  1. Dans le menu de navigation Menu de navigation, sélectionnez Projets > Tous les projets.

  2. Ouvrir un projet existant. Si vous souhaitez utiliser un nouveau projet :

    1. Cliquez sur Nouveau projet.

    2. Sélectionnez Créer un projet vide.

    3. Entrez un nom et une description facultative pour le projet.

    4. Cliquez sur Créer.

Pour plus d'informations ou pour regarder une vidéo, voir Création d'un projet.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le nouveau projet.

L'image suivante montre le nouveau projet.




Tâche 2 : Ajoutez l'ensemble de données à votre projet

Ce tutoriel utilise un ensemble de données d'exemple. Suivez ces étapes pour ajouter l'ensemble de données d'exemple à votre projet :

  1. Télécharger le chronic_kidney_disease_full.csv fichier (39 Ko).

  2. Ajoutez le fichier chronic_kidney_disease_full.csv à votre projet :

    1. Dans votre projet, cliquez sur l'icône Télécharger un élément Transférer l'actif dans le projet dans le projet.

    2. Dans le panneau latéral qui s'ouvre, recherchez le chronic_kidney_disease_full.csv fichier, puis cliquez sur Ouvrir. Restez sur la page jusqu'à la fin du chargement.
      Le chronic_kidney_disease_full.csv fichier est ajouté à votre projet en tant que ressource de données.

  3. Depuis la page Ressources de votre projet, ouvrez le chronic_kidney_disease_full.csv fichier pour prévisualiser les données. Il y a trois facteurs importants qui aident à prédire les maladies chroniques du rein qui sont disponibles dans le cadre de cette analyse : l'âge du sujet du test, les résultats des tests de créatinine sérique et les résultats des tests sur le diabète. Et la valeur de la classe indique si le patient a déjà été diagnostiqué pour une maladie rénale.

  4. Cliquez sur le nom du projet dans le chemin de navigation pour revenir à l'onglet Ressources.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre l'onglet Ressources du projet.

L'image suivante montre l'onglet Ressources du projet.




Tâche 3 : Créer le SPSS Modeler flux

Suivez ces étapes pour créer un SPSS Modeler flux dans le projet :

  1. Cliquez sur Nouvel actif > Créer des modèles sous forme de flux visuel.

  2. Entrez un nom et une description pour le flux.

  3. Cliquez sur Créer. Cela ouvre l'éditeur de flux que vous utiliserez pour créer le flux.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre l'éditeur de flux.

L'image suivante montre l'éditeur de flux.




Tâche 4 : Ajouter les nœuds au SPSS Modeler flux

Après avoir chargé les données, vous devez les transformer. Créez un flux simple en faisant glisser des transformateurs et des estimateurs sur le canevas et en les connectant à la source de données. Utilisez les nœuds suivants de la palette :

  • Data Asset : charge le fichier csv du projet

  • Partition : divise les données en segments de formation et de test

  • Type : définit le type de données. Utilisez-le pour désigner la zone class comme type target.

  • C5.0 : un algorithme de classification

  • Analyse : visualiser le modèle et vérifier son exactitude

  • Tableau : aperçu des données avec les prévisions

Suivez ces étapes pour créer le flux :

  1. Ajoutez le nœud de données :

    1. Dans la section Importer, faites glisser le nœud Ressource de données sur la grille.

    2. Cliquez deux fois sur le noeud Ressource de données pour sélectionner le fichier.

    3. Cliquez sur Modifier l'élément de données dans le volet qui s'ouvre.

    4. Sélectionnez « Données » dans la page qui s'ouvre.

    5. Sélectionnez chronic_kidney_disease_full.csv.

    6. Cliquez sur OK.

    7. Affichez les propriétés de l'actif de données.

    8. Cliquez sur Sauvegarder.

  2. Ajoutez le nœud Partition :

    1. Dans la section du champ des opérations, faites glisser le noeud Partition sur la grille.

    2. Connectez le noeud Ressource de données au noeud Partition.

    3. Cliquez deux fois sur le noeud Partition pour voir ses propriétés. La partition par défaut divise la moitié des données pour la formation et l'autre moitié pour les tests.

    4. Cliquez sur Sauvegarder.

  3. Ajoutez le nœud Type :

    1. Dans la section du champ des opérations, faites glisser le noeud Type sur la grille.

    2. Connectez le noeud Partition au noeud Type.

    3. Cliquez deux fois sur le noeud Type pour afficher ses propriétés. Le noeud type définit le niveau de mesure pour chaque champ. Ce fichier de données source utilise quatre niveaux de mesure différents : Continu, Catégorie, Nominal, Ordinal, et indicateur.

    4. Recherchez la zone class. Pour chaque zone, le rôle indique la partie que chaque zone joue dans la modélisation. Changez le classrôle sur cible - le champ que vous voulez prédire.

    5. Cliquez sur Sauvegarder.

  4. Ajoutez le nœud « C5.0 algorithme de classification » :

    1. Dans la section Modélisation, faites glisser le noeud C5.0 sur la grille.

    2. Connectez le noeud Type au noeud C5.0.

    3. Cliquez deux fois sur le noeud C5.0 pour afficher ses propriétés. Par défaut, l'algorithme C5.0 génère un arbre de décision. Un modèle C5.0 fonctionne en divisant l'échantillon en fonction de la zone qui fournit le gain d'informations maximal. Chaque sous-échantillon défini par la première division est ensuite divisé à nouveau, généralement basé sur un champ différent, et le processus se répète jusqu'à ce que les sous-échantillons ne puissent plus être divisés. Enfin, les divisions de niveau inférieur sont réexaminées et celles qui ne contribuent pas de façon significative à la valeur du modèle sont supprimées.

    4. Activez l'option Utiliser les paramètres définis dans ce nœud.

    5. Pour Cible, sélectionnez Classe.

    6. Dans la section Entrées, cliquez sur Ajouter des colonnes.

      1. Décochez la case à côté de Nom du champ.

      2. Sélectionnez âge, sc, Dm.

      3. Cliquez sur OK.

    7. Cliquez sur Sauvegarder.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le flux complet.

flux montrant le nœud Data Asset, le nœud Partition, le nœud Type et le C5.0 nœud class




Tâche 5 : Exécutez le SPSS Modeler flux et explorez les détails du modèle

Maintenant que vous avez conçu le flux, suivez ces étapes pour l'exécuter et examinez le diagramme arborescent pour voir les points de décision :

  1. Cliquez avec le bouton droit de la souris sur le noeud C5.0 et sélectionnez Exécuter. L'exécution du flux génère un nouveau nugget de modèle sur la grille.

  2. Cliquez avec le bouton droit de la souris sur le nugget de modèle et sélectionnez Afficher le modèle pour afficher les détails du modèle.

  3. Affichez le fichier Informations sur le modèle qui fournit un récapitulatif de modèle.

  4. Cliquez sur Règles de décision les plus hautes. Un tableau affiche une série de règles qui ont été utilisées pour affecter des enregistrements individuels à des nœuds enfants en fonction des valeurs des différents champs d'entrée.

  5. Cliquez sur Importance de la fonction. Un graphique montre l'importance relative de chaque prédicteur dans l'estimation du modèle. De ce fait, vous pouvez voir que la créatinine sérique est facilement le facteur le plus significatif, le diabète étant le facteur le plus important.

  6. Cliquez sur Diagramme d'arborescence. Le même modèle s'affiche sous la forme d'un arbre, avec un noeud à chaque point de décision.

    1. Passez la souris sur le nœud supérieur, qui fournit un résumé de tous les enregistrements du jeu de données. Près de 40 % des cas dans l'ensemble de données sont classés comme n'ayant pas reçu de diagnostic de maladie rénale. L'arbre peut fournir des indices supplémentaires sur les facteurs qui pourraient être responsables.

    2. Remarquez les deux branches partant du nœud supérieur, qui indiquent une division selon le taux de créatinine sérique.

      • Examinez la branche qui affiche les enregistrements où la créatinine sérique est supérieure à 1.25. Dans ce cas, 100 % de ces patients ont un diagnostic positif de maladie du rein.

      • Examinez la branche qui affiche les enregistrements où la créatinine sérique est inférieure ou égale à 1.25. Près de 80 % de ces patients n'ont pas de diagnostic positif de maladie rénale, mais près de 20 % de la créatinine sérique plus faible étaient encore diagnostiqués avec une maladie rénale.

    3. Remarquez les branches qui partent de sc<=1.250, qui est divisé par le diabète.

      • Examinez la branche qui montre les patients présentant un faible taux de créatinine sérique ( sc<=1.250 ) et un diagnostic de diabète (dm=oui). 100 % de ces patients ont également reçu un diagnostic de maladie rénale.

      • Examinez la branche qui montre les patients présentant un faible taux de créatinine sérique ( sc<=1.250 ) et ne souffrant pas de diabète (dm=non) : 85 % d'entre eux n'ont pas reçu de diagnostic de maladie rénale, mais 15 % ont tout de même reçu un tel diagnostic.

    4. Remarquez les branches issues de dm = non, qui sont divisées par le dernier facteur significatif, l'âge.

      • Examinez la branche qui affiche les patients âgés de 14 ans ou moins (âge <= 14). Cette branche montre que 75 % des jeunes patients présentant un faible taux de créatinine sérique et ne souffrant pas de diabète étaient exposés à un risque de développer une maladie rénale.

      • Examinez la branche qui montre les patients âgés de plus de 14 ans (âge > 14). Cette branche montre que seulement 12 % des patients âgés de plus de 14 ans présentant un faible taux de créatinine sérique et ne souffrant pas de diabète étaient exposés à un risque de développer une maladie rénale.

    5. Utilisez le fil d'Ariane pour revenir à votre modèle.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le diagramme arborescent.

L'image suivante montre le diagramme arborescent.




Tâche 6 : Évaluer le modèle

Suivez ces étapes pour utiliser les nœuds Analyse et Tableau afin d'évaluer le modèle :

  1. Dans la section Extrants, faites glisser le noeud Analyse sur la grille.

  2. Connectez le nugget Modèle au noeud Analyse.

  3. Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Exécuter.

  4. Dans le panneau Outputs (Résultats), ouvrez l 'analyse, qui montre que le modèle a correctement prédit un diagnostic de maladie rénale dans près de 95 % des cas. Fermez le fichier Analyse.

  5. Cliquez avec le bouton droit de la souris sur le noeud Analyse et sélectionnez Enregistrer la branche en tant que modèle.

    1. Pour Nom du modèle, entrez Kidney Disease Analysis.

    2. Cliquez sur Sauvegarder.

    3. Cliquez sur Fermer.

  6. Dans la section d'entrée, faites glisser le noeud Tableau sur la grille.

    1. Connectez le nugget Modèle au noeud Tableau.

    2. Cliquez avec le bouton droit sur le nœud Table, puis sélectionnez Aperçu des données.

    3. Lorsque l'aperçu s'affiche, faites défiler les deux dernières colonnes. La colonne $C-classe contient la prévision de la maladie rénale, et la colonne $CC-Classe indique le score de confiance pour cette prévision.

    4. Fermez le fichier Aperçu.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre le tableau d'aperçu avec les prédictions.

L'image suivante montre le tableau d'aperçu avec les prédictions.




Tâche 7 : Déployer et tester le modèle avec de nouvelles données

Enfin, suivez ces étapes pour déployer ce modèle et prédire le résultat à l'aide de nouvelles données.

  1. Revenez à l'onglet Actifs du projet.

  2. Cliquez sur la section Modèles et ouvrez le modèle Analyse des maladies rénales.

  3. Cliquez sur l'icône Promouvoir vers l'espace Promouvoir vers un espace de déploiement de déploiement.

  4. Choisissez un espace de déploiement existant. Si vous n'avez pas d'espace de déploiement, vous pouvez en créer un nouveau :

    1. Indiquez un nom d'espace.

    2. Cliquez sur Créer.

    3. Cliquez sur Fermer.

  5. Sélectionnez Accéder au modèle dans l'espace après sa promotion.

  6. Cliquez sur Promouvoir.

  7. Lorsque le modèle s'affiche dans l'espace de déploiement, cliquez sur Nouveau déploiement.

    1. Sélectionnez En ligne comme Type de déploiement.

    2. Indiquez un nom pour le déploiement.

    3. Cliquez sur Créer.

  8. Une fois le déploiement terminé, cliquez sur le nom du déploiement pour afficher la page des détails de déploiement.

  9. Accédez à l'onglet Test. Vous pouvez tester le modèle déployé à partir de la page des détails du déploiement des deux manières suivantes : test avec un formulaire ou test avec du code JSON.

  10. Cliquez sur l'entrée JSON, puis copiez les données de test suivantes et collez-les pour remplacer le texte JSON existant :

    {
       "input_data": [
          {
             "fields": [
                         "age",
                         "bp",
                         "sg",
                         "al",
                         "su",
                         "rbc",
                         "pc",
                         "pcc",
                         "ba",
                         "bgr",
                         "bu",
                         "sc",
                         "sod",
                         "pot",
                         "hemo",
                         "pcv",
                         "wbcc",
                         "rbcc",
                         "htn",
                         "dm",
                         "cad",
                         "appet",
                         "pe",
                         "ane",
                         "class"
             ],
             "values": [
                        [
                        "62",
                         "80",
                         "1.01",
                         "2",
                         "3",
                         "normal",
                         "normal",
                         "notpresent",
                         "notpresent",
                         "423",
                         "53",
                         "1.8",
                         "",
                         "",
                         "9.6",
                         "31",
                         "7500",
                         "",
                         "no",
                         "yes",
                         "no",
                         "poor",
                         "no",
                         "yes",
                         "ckd"
                         ]
             ]
          }
       ]
    }
    
  11. Cliquez sur Prédire pour prédire si une personne de 62 ans avec du diabète et un rapport de créatinine sérique de 1,8 devrait être diagnostiqués avec une maladie rénale. La prédiction qui en résulte indique que ce patient a une forte probabilité d'un diagnostic de maladie du rein.

Icône du point de contrôle Vérifiez vos progrès

L'image suivante montre l'onglet Test pour le déploiement du modèle avec une prédiction.

L'image suivante montre l'onglet Test pour le déploiement du modèle avec une prédiction.



Etapes suivantes

A présent, vous pouvez utiliser ce fichier pour une analyse plus approfondie. Par exemple, vous pouvez effectuer des tâches telles que :

Autres ressources