Noeud Logistique
La régression logistique, également appelée régression nominale, est une technique statistique permettant de classer des enregistrements en fonction des valeurs de leurs champs d'entrée. Excepté le fait qu'elle utilise un champ cible catégoriel et non pas numérique, cette régression est semblable à la régression linéaire. A la fois les modèles binomiaux (pour les cibles avec deux catégories discrètes) et les modèles multinomiaux (pour les cibles avec plus de deux catégories) sont pris en charge.
La régression logistique crée un ensemble d'équations qui associent les valeurs de champ d'entrée aux probabilités rattachées à chacune des catégories de champ de sortie. Une fois le modèle généré, vous pouvez l'utiliser pour estimer les probabilités de nouvelles données. Pour chaque enregistrement, une probabilité d'appartenance est calculée pour chaque catégorie de sortie. La catégorie cible présentant la plus forte probabilité devient la valeur de sortie prédite de l'enregistrement.
Exemple binomial. Un opérateur de télécommunications souhaite connaître le nombre de clients qui partent à la concurrence. Grâce aux données d'utilisation du service, vous pouvez créer un modèle binomial pour prévoir quels sont les clients susceptibles de s'adresser à un autre opérateur et pour personnaliser les offres de façon à fidéliser autant de clients que possible. Un modèle binomial est utilisé car la cible a deux catégories distinctes (susceptibles d'être transférées ou non).
Exemple multinomial. Un opérateur télécoms a segmenté sa base de clients par type d'utilisation des services en catégorisant les clients en quatre groupes. A l'aide de données démographiques pour prévoir l'appartenance à un groupe, vous pouvez créer un modèle multinomial pour classer les clients potentiels en groupes, puis personnaliser les offres pour les clients individuels.
Conditions requises. Un ou plusieurs champs d'entrée et un seul champ cible catégoriel
avec deux catégories au minimum. Pour un modèle binomial, la cible doit avoir un niveau de mesure Flag. Pour un modèle multinomial, la cible peut avoir un niveau de mesure Flagou Nominal avec au moins deux catégories. Les zones définies sur Both ou None sont ignorées. Les types des champs utilisés dans ce modèle doivent être complètement instanciés.
Force. Les modèles de régression logistique sont souvent assez exacts. Ils peuvent traiter des champs d'entrée symboliques et numériques. Ils peuvent fournir des probabilités prédites pour toutes les catégories cible, ce qui permet d'obtenir facilement une deuxième meilleure prévision. Les modèles logistiques montrent une efficacité optimale lorsque l'affectation des groupes représente un champ réellement catégoriel ; si l'affectation des groupes est basée sur les valeurs d'un champ d'intervalle continu (par exemple, QI élevé contre QI faible), envisagez d'utiliser une régression linéaire pour bénéficier des informations plus riches offertes par l'intervalle complet de valeurs. Les modèles logistiques peuvent également exécuter une sélection automatique des champs, même si d'autres approches comme les modèles d'arbre ou la sélection de caractéristiques exécutent cette sélection plus rapidement sur les gros jeux de données. Enfin, étant donné que les modèles logistiques sont bien maîtrisés par de nombreux analystes et Data miners, ils peuvent constituer une référence par rapport à laquelle il est possible de comparer d'autres techniques de modélisation.
Lors du traitement de gros jeux de données, vous pouvez considérablement améliorer les performances en désactivant l'option Tests de rapport de vraisemblance (option de résultat avancée).