Fonctions communes des noeuds Graphiques

Au cours de plusieurs étapes du processus d'exploration de données, des graphiques et des diagrammes sont utilisés pour explorer les données introduites dans IBM® SPSS Modeler. Par exemple, vous pouvez connecter un noeud Tracé ou Proportion à une source de données pour obtenir un aperçu des types de données et des proportions. Vous pouvez ensuite effectuer des manipulations de champ et d'enregistrement afin de préparer les données pour des opérations de modélisation en aval. Les graphiques permettent également de vérifier les distributions et les relations entre des champs nouvellement calculés.

La palette Graphiques contient les noeuds suivants :

Le noeud Représentation Graphique offre de nombreux types de graphiques différents dans un seul noeud. Ce noeud permet de choisir les champs de données que vous souhaitez explorer puis de sélectionner un graphique parmi ceux disponibles pour les données sélectionnées. Le noeud filtre automatiquement tous les types de graphiques ne fonctionnant pas avec les sélections de champs.

Le noeud Tracé montre les relations existant entre les champs numériques. Vous pouvez créer un tracé à l'aide de points (nuage de points) ou de courbes.

Le noeud distribution fournit l'occurrence des valeurs symboliques (catégorielles), comme un type de prêt hypothécaire ou le sexe d'un individu. Ce noeud est souvent utilisé pour montrer les déséquilibres des données, déséquilibres que vous pouvez rectifier à l'aide d'un noeud Equilibrer avant la création d'un modèle.

Le noeud Histogramme montre l'occurrence des valeurs des champs numériques. Il est souvent utilisé pour explorer les données avant toute création de modèles ou manipulation. Semblable au noeud distribution, le noeud Histogramme sert souvent à montrer les déséquilibres des données.

Le noeud Résumé fournit la proportion de valeurs d'un champ numérique par rapport aux valeurs d'un autre champ. (Il génère des graphiques semblables aux histogrammes.) Il est utile pour illustrer une variable ou un champ dont les valeurs changent avec le temps. Grâce à la représentation graphique en 3D, vous pouvez en outre inclure un axe symbolique affichant les proportions par catégorie.

Le noeud Courbes génère un graphique qui affiche plusieurs champs Y pour un seul champ X. Les champs Y sont représentés par des lignes colorées. Chacun équivaut à un noeud Tracé dont le style est défini sur Ligne et le mode X sur Trier. Les graphiques Courbes sont utiles lorsque vous souhaitez étudier la fluctuation de plusieurs variables au fil du temps.

Le noeud Relations illustre la force de la relation existant entre les valeurs de plusieurs champs symboliques (catégoriels). Le graphique utilise des lignes d'épaisseur différente pour représenter les forces de connexion. Par exemple, vous pouvez utiliser un noeud Relations pour explorer la relation avec l'achat d'un ensemble d'articles sur un site de commerce électronique.

Le noeud Tracé horaire affiche un ou plusieurs jeux de données temporelles. En règle générale, vous utilisez un noeud Intervalles de temps, en premier lieu, pour créer un champ TimeLabel qui servira de libellé à l'axe x.

Le noeud Evaluation permet d'évaluer et de comparer des modèles prédictifs. Le graphique d'évaluation montre l'aptitude des modèles à prédire des résultats spécifiques. Il trie les enregistrements en fonction de la valeur prédite et de la confiance dans cette prévision. Il scinde les enregistrements en groupes de taille égale (quantiles), puis reporte la valeur du critère traité pour chaque quantile, du plus élevé au plus faible. Les divers modèles apparaissent sous forme de lignes dans le graphique.

Le noeud Visualisation de carte peut accepter plusieurs connexions d'entrée et afficher des données géospatiales sur une carte sous forme de série de couches. Chaque couche est un champ géospatial unique. Par exemple, la couche de base peut être la carte d'un pays ; sur cette couche, il peut y avoir une couche pour les routes, une couche pour les rivières et une couche pour les villes.

Le noeud Tracé E (Bêta) présente les relations existant entre des champs numériques. Il est comparable au noeud Tracé mais il possède des options différentes et il utilise de nouvelles fonctions graphiques. Utilisez le noeud bêta pour découvrir les nouvelles fonctions graphiques.

t-SNE (t-Distributed Stochastic Neighbor Embedding) est un outil permettant de visualiser des données en grande dimension. Il convertit les analogies de points de données en probabilités. Ce noeud t-SNE de SPSS Modeler est mis en oeuvre dans Python et nécessite la bibliothèque Python scikit-learn©.

Une fois que vous avez ajouté un noeud Graphique à un flux, vous pouvez double-cliquer sur le noeud pour ouvrir une boîte de dialogue qui permet de définir des options. La plupart des graphiques contiennent un certain nombre d'options spécifiques figurant sur un ou plusieurs onglets. Les onglets comportent également des options communes à tous les graphiques. Les rubriques suivantes contiennent des informations supplémentaires sur ces options communes.

Une fois que vous avez configuré les options d'un noeud Graphique, vous pouvez exécuter ce dernier dans la boîte de dialogue ou au sein d'un flux. Dans la fenêtre du graphique créé, vous pouvez générer des noeuds Calculer (Binariser) et Sélectionner en fonction d'une sélection ou d'une zone de données, ce qui entraîne la définition de sous-jeux de données. Par exemple, vous pouvez utiliser la puissance de cette fonction pour identifier et exclure les valeurs éloignées.