Modèles d'arbre de décisions
Utilisez les modèles d'arbres de décision pour développer des systèmes de classification prévoyant ou classant les observations futures à partir d'un ensemble de règles de décision. Si vos données sont divisées en classes qui vous intéressent (par exemple, rapport prêts à haut risque, prêts à faible risque, abonnés/non-abonnés, votants/abstentionnistes, ou types de bactérie), vous pouvez les utiliser pour construire des règles qui permettront de classer les observations anciennes ou nouvelles avec une exactitude maximale. Par exemple, vous pouvez construire un arbre qui classe le risque de crédit ou l'intention d'achat en fonction de l'âge et d'autres facteurs.
Cette approche, parfois nommée induction de règle, présente plusieurs avantages. Tout d'abord, le raisonnement qui sous-tend le modèle apparaît de façon très claire lorsque vous parcourez l'arbre, ce qui n'est pas le cas avec certaines méthodes de modélisation, qualifiées de boîtes noires dont il est parfois difficile de saisir la logique interne.
En outre, le processus inclut automatiquement dans sa règle les attributs ayant une influence sur la prise de décision. Les autres attributs sont alors ignorés. Vous pouvez ainsi obtenir des informations très utiles sur les données et les utiliser pour que les champs pertinents apparaissent avant de vous familiariser avec une autre technique d'apprentissage, telle que le réseau de neurones.
Les nuggets de modèle d'arbre décision peuvent être convertis en une suite de règles If-Then (un ensemble de règles), permettant souvent d'afficher les informations de manière plus intelligible. La présentation de l'arbre décision permet de visualiser la façon dont les attributs dans les données peuvent fractionner ou partitionner la population en sous-ensembles pertinents. La sortie du noeud Tree-AS est différente de celle des autres noeuds d'arbre de décision car elle inclut une liste des règles directement dans le nugget sans qu'il soit nécessaire de créer un ensemble de règles. La présentation du jeu de règles est utile pour voir comment un groupe d'éléments particulier aboutit à une conclusion spécifique. Par exemple, la règle suivante fournit le profil d'un groupe de voitures de bon rapport qualité-prix :
IF testé = 'oui'
AND kilométrage = 'faible'
THEN -> 'ACHETER'.
Algorithmes de création d'arbre
Plusieurs algorithmes permettent d'analyser la classification et l'analyse de segmentation. Ils procèdent tous quasiment de la même façon : ils examinent tous les champs du jeu de données pour rechercher celui qui aboutit à la meilleure classification ou prévision lors de la division des données en sous-groupes. Le processus est appliqué de manière récursive : les sous-groupes sont divisés en unités de plus en plus petites jusqu'à ce que l'arbre soit terminé (en fonction de critères d'arrêt donnés). En fonction de l'algorithme employé, les champs d'entrée et les champs cible utilisés pour créer l'arbre peuvent être des champs continus (intervalle numérique) ou des champs catégoriels. Si une cible continue est utilisée, un arbre de régression est généré ; s'il s'agit d'une cible catégorielle, un arbre de classification est créé.
|
|
Le noeud Arbre Classification et Regression (C&RT) génère un arbre de décisions qui vous permet de prévoir ou de classifier les observations futures. La méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments en réduisant l'index d'impureté à chaque étape, un noeud de l'arbre étant considéré comme "pur" si 100 % de ses observations appartiennent à une catégorie spécifique du champ cible. Les champs cible et les champs d'entrée peuvent être des champs d'intervalle numériques ou des champs catégoriels numériques (nominal,ordinal ou indicateur). Toutes les divisions sont binaires (deux sous-groupes uniquement). |
|
|
Le noeud CHAID génère des arbres de décisions à l'aide des statistiques du khi-deux pour identifier les séparations optimales. Contrairement aux noeuds Arbre C&RT et QUEST, CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs. |
|
|
Le noeud QUEST est une méthode de classification supervisée binaire permettant de créer des arbres de décisions, développée pour réduire le temps de traitement nécessaire aux analyses C&R Tree importantes, tout en limitant la tendance, observée parmi les méthodes d'arbre de classification, à favoriser les entrées autorisant un nombre supérieur de divisions. Les champs d'entrée peuvent être des intervalles numériques (continues) mais les champs cible doivent être catégoriels. Toutes les divisions sont binaires. |
|
|
Le noeud C5.0 crée un arbre de décisions ou un ensemble de règles. Le fonctionnement de ce modèle repose sur un découpage de l'échantillon basé sur le champ qui fournit le gain d'informations le plus important à chaque niveau. Le champ cible doit être catégoriel. Les divisions multiples en plus de deux sous-groupes sont autorisées. |
|
|
Le noeud Tree-AS est similaire au schéma existant du noeud existant CHAID. Toutefois, le noeud Tree-AS Forest est conçu pour traiter des données volumineuses afin de créer un arbre unique, et affiche le modèle obtenu dans l'afficheur des résultats ajouté dans SPSS Modeler version 17. Le noeud génère un arbre décision à l'aide des statistiques du khi-deux (CHAI) pour identifier les séparations optimales. CHAID peut générer des arbres non binaires, ce qui implique que certaines divisions possèdent plusieurs branches. Les champs cibles et les champs d'entrée peuvent être d'intervalle numérique (continu) ou catégoriques. La méthode Exhaustive CHAID correspond à une modification du CHAID qui examine plus en détail toutes les divisions possibles, mais dont les calculs sont plus longs. |
|
|
Le noeud Random Trees est similaire au noeud C&RT existant ; toutefois, le noeud Random Trees a été conçu pour traiter les données volumineuses afin de créer un arbre unique et affiche le modèle généré dans le visualiseur de sortie qui a été ajouté dans SPSS Modeler version 17. Le noeud de l'arbre Random Trees génère un arbre décision qui vous permet de prévoir ou de classifier les observations futures. La méthode utilise la technique de partition récursive afin de diviser les données d'apprentissage en segments en réduisant l'index d'impureté à chaque étape, un noeud de l'arbre étant considéré comme pur si 100 % de ses observations appartiennent à une catégorie spécifique du champ cible. Les champs cible et les champs d'entrée peuvent être des champs d'intervalle numériques ou des champs catégoriels numériques (nominal,ordinal ou indicateur). Toutes les divisions sont binaires (deux sous-groupes uniquement). |
Emplois généraux de l'analyse en arbre
Voici quelques exemples généraux d'emploi de l'analyse en arbre :
Segmentation : permet d'identifier les personnes susceptibles d'être membres d'une classe donné.
Stratification : Attribue des observations à l'intérieur d'une des modalités telles que les groupes à risque élevé, moyen ou faible.
Prévision : permet de créer des règles et de les utiliser pour prévoir des événements futurs. La prédiction peut également concerner des tentatives pour relier les attributs de prévision aux valeurs d'une variable continue.
Réduction de données et filtrage des variables : sélectionnez un sous-ensemble utile de prédicateurs dans un large ensemble de variables à utiliser pour la génération d'un modèle paramétrique formel.
Identification des interactions : Identifiez les relations qui se rapportent uniquement à des sous-groupes spécifiques et définissez-les dans un modèle paramétrique formel.
Fusion de catégories et variables continues en bandes : Permet de recoder des catégories de prédicteur de groupe et des variables continues avec une perte de données minimale.