Noeud Logistique - Options du modèle
Nom du modèle Vous pouvez générer le nom du modèle automatiquement sur la base du champ cible ou ID (ou du type de modèle si aucun de ces champs n'est spécifié) ou spécifier un nom personnalisé.
Utiliser les données partitionnées. Si une zone de partition est définie, seules les données d'apprentissage sont utilisées pour la création du modèle.
Créer des modèles de scission. Crée un modèle séparé pour chaque valeur possible des champs d'entrée spécifiés en tant que champs de découpage. Pour plus d'informations, voir Création de modèles de scission.
Procédure. Spécifie la création d'un modèle binomial ou d'un modèle multinomial. Les options disponibles dans la boîte de dialogue varient selon le type de procédure de modélisation sélectionné.
- Binomial. Utilisé lorsque le champ cible est un champ indicateur ou nominal avec deux valeurs discrètes (dichotomiques), telles que oui/non, activé/désactivé, mâle/femelle.
- Multinomial. Option utilisée lorsque le champ cible est un champ nominal avec plus de deux valeurs. Vous pouvez spécifier Effets principaux, Factoriel complet ou Personnalisé.
Inclure la constante dans l'équation. Cette option détermine si les équations finales incluront ou non une constante. Il est conseillé de sélectionner cette option dans la plupart des situations.
Modèles binomiaux
Pour les modèles binomiaux, les méthodes et options suivantes sont disponibles :
Méthode. Indiquez la méthode devant être utilisée pour créer le modèle de régression logistique.
- Entrée. Cette méthode par défaut intègre directement toutes les caractéristiques dans l'équation. Aucune sélection de champ n'intervient dans la création du modèle.
- Pas à pas montante. Cette méthode de sélection de champ construit l'équation par étapes, comme son nom le suggère. Le modèle initial est le modèle le plus simple : son équation ne comporte aucune caractéristique de modèle (à l'exception de la constante). A chaque étape, les caractéristiques qui n'ont pas encore été intégrées au modèle sont évaluées et celles qui améliorent de manière significative la puissance de prévision du modèle sont alors ajoutées au modèle. De plus, les caractéristiques déjà intégrées au modèle sont réévaluées afin de déterminer si certaines d'entre elles peuvent être supprimées sans que cela affecte le fonctionnement du modèle. Si c'est le cas, elles sont supprimées. Le processus se répète et d'autres caractéristiques sont donc ajoutées et/ou supprimées. Lorsqu'aucune caractéristique ne peut être ajoutée au modèle pour l'améliorer, ou qu'aucune caractéristique ne peut être supprimée du modèle sans risquer de le dégrader, le modèle final est généré.
- Pas à pas descendante. Cette méthode est fondamentalement l'opposée de la méthode Pas à pas montante. Avec cette méthode, le modèle initial utilise toutes les caractéristiques en tant que prédicteurs. A chaque étape, les caractéristiques du modèle sont évaluées et celles dont la suppression n'a aucune incidence sur le fonctionnement du modèle sont supprimées. De plus, les caractéristiques précédemment supprimées sont réévaluées afin de déterminer si la meilleure d'entre elles améliore de manière significative la puissance de prévision du modèle. Si c'est le cas, elle est rajoutée au modèle. Lorsqu'aucune caractéristique ne peut être supprimée du modèle sans risquer de le dégrader, et qu'aucune caractéristique ne peut être ajoutée au modèle pour l'améliorer, le modèle final est généré.
Entrées catégorielles. Répertorie les champs identifiés comme catégoriels, c'est-à-dire ceux avec un niveau de mesure indicateur, nominal ou ordinal. Vous pouvez définir le contraste et la catégorie de base de chaque champ catégoriel.
- Nom du champ. Cette colonne indique les noms de champ des entrées catégorielles. Pour ajouter des entrées continues ou numériques à cette colonne, cliquez sur l'icône Ajouter un champ à droite de la liste et sélectionnez les entrées requises.
- Contraste. L'interprétation des coefficients de régression d'un champ catégoriel dépend des contrastes utilisés. Le contraste détermine le mode de définition des tests d'hypothèse pour la comparaison des moyennes estimées. Par exemple, si vous savez qu'un champ catégoriel présente un ordre implicite, tel qu'un motif ou un regroupement, vous pouvez utiliser le contraste pour modéliser cet ordre. Les contrastes disponibles sont les suivants :
Indicateur. Les contrastes indiquent la présence ou l'absence d'appartenance à la modalité. Il s'agit de la méthode par défaut.
Simple. Chaque catégorie du champ prédicteur, à l'exception de la catégorie de référence, est comparée à la catégorie de référence.
Différence. Chaque catégorie du champ prédicteur, à l'exception de la première catégorie, est comparée à l'effet moyen des catégories précédentes. (Aussi connu sous le nom de contrastes inversés d'Helmert.)
Helmert. Chaque catégorie du champ prédicteur, à l'exception de la dernière catégorie, est comparée à l'effet moyen des catégories suivantes.
Répété. Chaque catégorie du champ prédicteur, à l'exception de la première catégorie, est comparée à la catégorie qui la précède.
Modèle polynomial. Contraste polynomial orthogonal. On part de l'hypothèse que les modalités sont espacées de manière équivalente. Les contrastes polynomiaux ne sont disponibles que pour les champs numériques.
Ecart. Chaque catégorie du champ prédicteur, à l'exception de la catégorie de référence, est comparée à l'effet global.
- Catégorie de base. Spécifie la façon dont la catégorie de référence est déterminée pour le type de contraste sélectionné. Sélectionnez Premiers afin d'utiliser la première catégorie pour le champ d'entrée (trié dans l'ordre alphabétique) ou Derniers pour utiliser la dernière catégorie. La catégorie de base par défaut s'applique à des variables qui sont répertoriées dans la zone Entrées catégorielles.
Remarque : Ce champ n'est pas disponible si le paramètre de contraste est Différence, Helmert, Répété ou Polynomial.
L'estimation de l'effet de chaque champ sur la réponse générale est calculée comme une augmentation ou une diminution de la vraisemblance de chacune des autres catégories en rapport avec la catégorie de référence. Vous pouvez alors éventuellement identifier les champs et valeurs dont la probabilité de fournir une réponse spécifique est plus élevée.
La catégorie de base apparaît dans la sortie sous la forme 0,0. En effet, la comparaison de la catégorie de base avec elle-même engendre un résultat nul. Toutes les autres catégories sont présentées sous forme d'équations en rapport avec la catégorie de base. Pour plus d'informations, reportez-vous à la rubrique Nugget de modèle logistique - Détails.
Modèles multinomiaux
Pour les modèles multinomiaux, les méthodes et options suivantes sont disponibles :
Méthode. Indiquez la méthode devant être utilisée pour créer le modèle de régression logistique.
- Entrée. Cette méthode par défaut intègre directement toutes les caractéristiques dans l'équation. Aucune sélection de champ n'intervient dans la création du modèle.
- Pas à pas. Comme son nom l'indique, la méthode de sélection de champs pas à pas génère l'équation par étapes. Le modèle initial est le modèle le plus simple : son équation ne comporte aucune caractéristique de modèle (à l'exception de la constante). A chaque étape, les caractéristiques qui n'ont pas encore été intégrées au modèle sont évaluées et celles qui améliorent de manière significative la puissance de prévision du modèle sont alors ajoutées au modèle. De plus, les caractéristiques déjà intégrées au modèle sont réévaluées afin de déterminer si certaines d'entre elles peuvent être supprimées sans que cela affecte le fonctionnement du modèle. Si c'est le cas, ils sont supprimés. Le processus se répète et d'autres caractéristiques sont donc ajoutées et/ou supprimées. Lorsqu'aucune caractéristique ne peut être ajoutée au modèle pour l'améliorer, ou qu'aucune caractéristique ne peut être supprimée du modèle sans risquer de le dégrader, le modèle final est généré.
- Ascendante. Cette méthode de sélection des champs est similaire à la méthode Pas à pas dans la mesure où les modèles sont également générés par étapes. Cependant, avec cette méthode, le modèle initial est le modèle le plus simple, et seules la constante et les caractéristiques peuvent être ajoutées à ce modèle. A chaque étape, les caractéristiques non encore intégrées au modèle sont testées : le système évalue leur contribution à l'amélioration du modèle et les meilleures d'entre elles sont ajoutées au modèle final. Lorsqu'il est impossible d'ajouter des caractéristiques supplémentaires, ou que le meilleur candidat lui-même n'améliore pas le modèle de façon significative, le modèle final est généré.
- Descendante. Cette méthode est le contraire de la méthode Ascendante. Avec cette méthode, le modèle initial utilise toutes les caractéristiques en tant que prédicteurs. Il est donc seulement possible de supprimer des caractéristiques du modèle. Les caractéristiques de modèle contribuant peu à l'amélioration du modèle sont supprimées une à une : lorsque la suppression d'une autre caractéristique ne peut que dégrader le modèle, le modèle final est généré.
- Pas à pas descendante. Cette méthode est le contraire de la méthode Pas à pas. Avec cette méthode, le modèle initial utilise toutes les caractéristiques en tant que prédicteurs. A chaque étape, les caractéristiques du modèle sont évaluées et celles dont la suppression n'a aucune incidence sur le fonctionnement du modèle sont supprimées. De plus, les caractéristiques précédemment supprimées sont réévaluées afin de déterminer si la meilleure d'entre elles améliore de manière significative la puissance de prévision du modèle. Si c'est le cas, elle est rajoutée au modèle. Lorsqu'aucune caractéristique ne peut être supprimée du modèle sans risquer de le dégrader, et qu'aucune caractéristique ne peut être ajoutée au modèle pour l'améliorer, le modèle final est généré.
Catégorie de base de la cible. Indique le mode de détermination de la catégorie de référence. Il s'agit de la référence par rapport à laquelle les équations de régression de toutes les autres catégories de la cible sont estimées. Sélectionnez Premiers afin d'utiliser la première catégorie pour le champ cible actuel (trié dans l'ordre alphabétique) ou Derniers pour utiliser la dernière catégorie. Vous pouvez également sélectionner Spécifier pour choisir une catégorie spécifique, puis sélectionner la valeur souhaitée dans la liste. Les valeurs disponibles peuvent être définies pour chaque champ d'un noeud type.
La catégorie spécifiée est souvent celle qui, en tant que catégorie de base, vous intéresse le moins, par exemple un produit d'appel. Les autres catégories sont alors liées à cette catégorie de base de façon relative afin d'identifier ce qui les rend plus susceptibles d'être dans leur propre catégorie. Vous pouvez alors éventuellement identifier les champs et valeurs dont la probabilité de fournir une réponse spécifique est plus élevée.
La catégorie de base apparaît dans la sortie sous la forme 0,0. En effet, la comparaison de la catégorie de base avec elle-même engendre un résultat nul. Toutes les autres catégories sont présentées sous forme d'équations en rapport avec la catégorie de base. Pour plus d'informations, reportez-vous à la rubrique Nugget de modèle logistique - Détails.
Type de modèle. Deux options permettent de définir les caractéristiques de votre modèle. Les modèles Effets principaux incluent les champs d'entrée individuellement et ne testent pas les interactions (effets multiplicateurs) entre les champs d'entrée. Les modèles Factoriel complet incluent toutes les interactions, ainsi que les effets principaux des champs d'entrée. Plus performants dans la capture de relations complexes, les modèles Factoriel complet sont également beaucoup plus difficiles à interpréter et davantage sujets au phénomène de surajustement. En raison du nombre potentiellement élevé de combinaisons possibles, les méthodes de sélection automatique des champs (autres que la méthode Entrée) sont désactivées pour les modèles Factoriel complet. Les modèles personnalisés comprennent uniquement les caractéristiques (effets principaux et interactions) que vous indiquez. Lorsque cette option est sélectionnée, utilisez la liste Caractéristiques du modèle pour ajouter des caractéristiques au modèle ou pour en supprimer.
Caractéristiques du modèle. Lorsque vous créez un modèle personnalisé, vous devez indiquer explicitement ses caractéristiques. La liste répertorie toutes les caractéristiques actuelles du modèle. Les boutons situés à droite de la liste Caractéristiques du modèle permettent d'ajouter et de supprimer des caractéristiques (termes) de modèle.
- Pour ajouter des caractéristiques au modèle, cliquez sur le bouton Ajouter de nouvelles caractéristiques au modèle. Pour plus d'informations, reportez-vous à la rubrique Ajout de caractéristiques à un modèle de régression logistique.
- Pour supprimer des caractéristiques, sélectionnez-les, puis cliquez sur le bouton Supprimer les caractéristiques du modèle sélectionné.