Noeud Classificateur automatique - Options expert

L'onglet Expert du noeud Classificateur automatique vous permet d'appliquer une partition (si elle existe), de sélectionner les algorithmes à utiliser et de définir les règles d'arrêt.

Modèles utilisés. Dans la colonne de gauche, cochez les cases correspondant aux types de modèle (algorithmes) à inclure dans la comparaison. Plus vous sélectionnez de types, plus un nombre important de modèles sont créés et plus le traitement est long.

Type de modèle. Répertorie les algorithmes disponibles (voir ci-dessous).

Paramètres de modèle. Vous pouvez utiliser les paramètres par défaut pour chaque type de modèle ou sélectionner Spécifier pour choisir des options pour chaque type de modèle. Les options sont semblables à celles proposées pour chaque noeud modélisation. Cependant, vous pouvez sélectionner ici plusieurs options ou combinaisons. Par exemple, si vous comparez des modèles Réseau de neurones, vous pouvez choisir toutes les méthodes d'apprentissage pour apprendre six modèles en une seule étape au lieu de sélectionner chaque méthode indépendamment.

Nombre de modèles. Indique le nombre de modèles générés pour chaque algorithme en fonction des paramètres actuels. Lorsque vous combinez des options, le nombre de modèles peut augmenter rapidement. Il est donc fortement recommandé de surveiller ce nombre, en particulier si vous utilisez des jeux de données volumineux.

Restreindre le temps maximal passé à créer un seul modèle. (Pour les modèles k moyenne, Kohonen, TwoStep, SVM, KNN, Bayes Net et Liste de décision) Définit une limite de temps maximale pour un modèle donné. Par exemple, si l'apprentissage d'un modèle donné prenait un temps particulièrement long du fait d'une interaction complexe, vous ne voudriez pas qu'il ralentisse l'exécution de la modélisation complète.

Remarque : Si la cible est un champ nominal (ensemble), l'option Liste de décision n'est pas disponible.

Algorithmes pris en charge

Le noeud Support Vector Machine (SVM) vous permet de classer les données dans l'un de deux groupes sans surajustement. SVM fonctionne bien avec les grands jeux de données, comme ceux qui disposent d'un très grand nombre de champs d'entrée.

Le noeud k-Voisin le plus proche (KNN) associe une nouvelle observation à la catégorie ou à la valeur des objets k les plus proches dans l'espace du prédicteur, où k est un entier. Les observations semblables sont proches l'une de l'autre et les observations dissemblables sont éloignées l'une de l'autre.

L'analyse discriminante crée des hypothèses plus strictes que la régression logistique mais peut constituer une alternative ou un complément précieux à une analyse de régression logistique lorsque ces hypothèses sont réunies.

Le noeud Réseau Bayésien permet de créer un modèle de probabilité en combinant les preuves observées et enregistrées avec les connaissances réelles pour établir la probabilité des occurrences. Le noeud est axé sur le Tree Augmented Naïve Bayes (TAN) et sur les réseaux Couverture de Markov qui servent principalement à la classification.

Le noeud Liste de décision identifie les sous-groupes, ou les segments, qui présentent une probabilité plus élevée ou plus faible d'un résultat binaire donné par rapport à la population globale. Vous pouvez, par exemple, rechercher les clients qui ont une faible probabilité d'attrition ou ceux qui ont une plus forte probabilité de répondre favorablement à une campagne. Vous pouvez incorporer vos connaissances métier dans le modèle en ajoutant vos propres segments personnalisés et en prévisualisant des modèles alternatifs côte à côte de façon à comparer les résultats. Les modèles Liste de décision se composent d'une liste de règles dans laquelle chaque règle présente une condition et un résultat. Les règles sont appliquées dans l'ordre et la première règle correspondante détermine le résultat.

La régression logistique est une technique statistique de classification des enregistrements sur la base des valeurs des champs d'entrée. Excepté le fait qu'elle utilise un champ cible catégoriel et non pas numérique, cette régression est similaire à la régression linéaire.

Le noeud CHAID génère des arbres de décisions à l'aide des statistiques du khi-deux pour identifier les séparations optimales. Contrairement aux noeuds Arbre C&RT et QUEST, CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs.

Le noeud QUEST est une méthode de classification supervisée binaire permettant de créer des arbres de décisions, développée pour réduire le temps de traitement nécessaire aux analyses C&R Tree importantes, tout en limitant la tendance, observée parmi les méthodes d'arbre de classification, à favoriser les entrées autorisant un nombre supérieur de divisions. Les champs d'entrée peuvent être des intervalles numériques (continues) mais les champs cible doivent être catégoriels. Toutes les divisions sont binaires.

Le noeud Arbre Classification et Regression (C&RT) génère un arbre de décisions qui vous permet de prévoir ou de classifier les observations futures. La méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments en réduisant l'index d'impureté à chaque étape, un noeud de l'arbre étant considéré comme "pur" si 100 % de ses observations appartiennent à une catégorie spécifique du champ cible. Les champs cible et les champs d'entrée peuvent être des champs d'intervalle numériques ou des champs catégoriels numériques (nominal,ordinal ou indicateur). Toutes les divisions sont binaires (deux sous-groupes uniquement).

Le noeud C5.0 crée un arbre de décisions ou un ensemble de règles. Le fonctionnement de ce modèle repose sur un découpage de l'échantillon basé sur le champ qui fournit le gain d'informations le plus important à chaque niveau. Le champ cible doit être catégoriel. Les divisions multiples en plus de deux sous-groupes sont autorisées.

Le noeud R. neurones est un modèle simplifié de la manière dont le cerveau humain traite les informations. Le fonctionnement de ce modèle repose sur la simulation d'un grand nombre d'unités de traitement simples interconnectées, qui sont en quelque sorte des versions abstraites de nos neurones. Les réseaux de neurones sont de puissants estimateurs de fonctions qui ne requièrent qu'une connaissance limitée en matière de statistiques ou de mathématiques.

Les modèles de régression linéaire prédisent une cible continue en fonction de relations linéaires entre la cible et un ou plusieurs prédicteurs.

Le noeud Linear Support Vector Machine (LSVM) vous permet de classer les données dans l'un de deux groupes sans surajustement. LSVM est linéaire et fonctionne bien avec les grands jeux de données, comme ceux qui disposent d'un très grand nombre d'enregistrements.

Le noeud Random Trees est similaire au noeud C&RT existant ; toutefois, le noeud Random Trees a été conçu pour traiter les données volumineuses afin de créer un arbre unique et affiche le modèle généré dans le visualiseur de sortie qui a été ajouté dans SPSS Modeler version 17. Le noeud de l'arbre Random Trees génère un arbre décision qui vous permet de prévoir ou de classifier les observations futures. La méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments en réduisant l'index d'impureté à chaque étape, un noeud de l'arbre étant considéré comme pur si 100 % de ses observations appartiennent à une catégorie spécifique du champ cible. Les champs cible et les champs d'entrée peuvent être des champs d'intervalle numériques ou des champs catégoriels numériques (nominal,ordinal ou indicateur). Toutes les divisions sont binaires (deux sous-groupes uniquement).

Le noeud Tree-AS est similaire au schéma existant du noeud existant CHAID. Toutefois, le noeud Tree-AS Forest est conçu pour traiter des données volumineuses afin de créer un arbre unique, et affiche le modèle obtenu dans l'afficheur des résultats ajouté dans SPSS Modeler version 17. Le noeud génère un arbre décision à l'aide des statistiques du khi-deux (CHAI) pour identifier les séparations optimales. CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs.

XGBoost Tree est une implémentation avancée d'un algorithme de boosting de gradient qui utilise un modèle d'arbre comme modèle de base. Les algorithmes de boosting forment les classificateurs faibles de manière itérative et les ajoutent ensuite à un classificateur fort final. De par sa souplesse, XGBoost Tree fournit un grand nombre de paramètres qui peuvent beaucoup perturber les utilisateurs, c'est pourquoi le noeud XGBoost Tree de SPSS Modeler expose les principales fonctionnalités et les paramètres les plus couramment utilisés. Ce noeud est mis en oeuvre dans Python.

XGBoost© est une implémentation avancée d'un algorithme de boosting de gradient. Les algorithmes de boosting forment les classificateurs faibles de manière itérative et les ajoutent ensuite à un classificateur fort final. De par sa souplesse, XGBoost fournit un grand nombre de paramètres qui peuvent beaucoup perturber les utilisateurs, c'est pourquoi le noeud XGBoost-AS de SPSS Modeler expose les principales fonctionnalités et les paramètres les plus couramment utilisés. Ce noeud est implémenté en Spark.

Remarque : Si vous sélectionnez Tree-AS pour l'exécuter sur Analytic Server, il ne parvient pas à générer un modèle s'il existe un noeud Partition en amont. Dans ce cas, pour que le noeud Classificateur automatique fonctionne avec les autres noeuds modélisation sur Analytic Server, désélectionnez le type de modèle Tree-AS.