Noeud Analyse - Onglet Analyse

L'onglet Analyse permet d'indiquer les détails de l'analyse.

Matrices de coïncidence (pour les cibles symboliques ou catégorielles). Affiche le motif des correspondances entre chaque champ généré (prédit) et le champ cible associé pour les cibles catégorielles (indicateur, nominal ou ordinal). Un tableau apparaît, dans lequel les lignes sont définies par des valeurs réelles et les colonnes par des valeurs prédites, chaque cellule indiquant le nombre d'enregistrements auxquels ce motif correspond. Cette fonction permet notamment d'identifier les erreurs systématiques dans les prévisions. Si plusieurs champs générés sont reliés au même champ de sortie alors qu'ils sont issus de modèles différents, le nombre de fois où ces champs sont en accord ou en désaccord est calculé et affiché. Lorsqu'ils sont en accord, d'autres statistiques correctes/incorrectes apparaissent.

Evaluation des performances. Affiche les statistiques d'évaluation des performances des modèles produisant des sorties catégorielles. Ces statistiques, affichées pour chaque catégorie des champs de sortie, indiquent la taille moyenne (en bits) des informations générées par le modèle utilisé pour la prévision des enregistrements appartenant à la catégorie en question. Elles tiennent compte des difficultés liées à la classification ; par conséquent, l'index d'évaluation de performances des prévisions précises portant sur des catégories rares sera supérieur à celui des prévisions précises portant sur des catégories courantes. Si le modèle ne permet pas d'obtenir des résultats pertinents pour une catégorie, l'index d'évaluation de performances de cette dernière sera de zéro.

Mesures d'évaluation (AUC & Gini, classificateurs binaires uniquement). Pour les discriminants binaires, cette option présente les métriques d'évaluation de coefficient AUC (aire sous la courbe) et Gini. Ces deux métriques d'évaluation sont calculées ensemble pour chaque modèle binaire. Les valeurs des métriques sont indiquées dans une table dans le navigateur de sortie du noeud Analyse.

La métrique d'évaluation AUC est calculée en tant qu'aire sous une courbe ROC (Receiver Operator Characteristic) et constitue une représentation scalaire des performances attendues d'un discriminant. La métrique AUC est toujours comprise entre 0 et 1, un nombre élevé représentant un discriminant de meilleure qualité. Une courbe ROC diagonale entre les coordonnées (0,0) et (1,1) représente un discriminant aléatoire et comporte une métrique AUC de 0,5. Par conséquent, un discriminant réaliste n'aura pas de métrique AUC inférieure à 0,5.

La métrique d'évaluation de coefficient Gini est parfois utilisée comme alternative à la métrique d'évaluation AUC et les deux mesures sont étroitement liées. Le coefficient de Gini est calculé comme deux fois la surface entre la courbe ROC et la diagonale, ou comme Gini = 2AUC -1. Le coefficient de Gini est toujours compris entre 0 et 1, un nombre plus élevé représentant un meilleur discriminant. Le coefficient Gini est négatif dans le cas peu probable où la courbe ROC se situe en dessous de la diagonale.

Niveau de confiance (si disponible) Pour les modèles qui génèrent un champ de fiabilité, cette option affiche des statistiques sur les valeurs de confiance et leurs relations avec les prévisions. Deux paramètres peuvent être définis pour cette option :

  • Seuil de. Indique le niveau de confiance au-delà duquel la précision sera égale au pourcentage spécifié.
  • Améliorer l'exactitude. Indique le niveau de confiance au-delà duquel la précision sera améliorée par le facteur spécifié. Par exemple, si la précision globale est de 90 % et que cette option est paramétrée sur 2, la valeur affichée correspondra au niveau de confiance requis pour une précision de 95 %.

Rechercher les champs prédits/de prédicteur avec. Détermine la façon dont les champs prédits sont en correspondance avec le champ cible d'origine.

  • Modéliser les métadonnées de champ de sortie. Fait correspondre les champs prédits à la cible en fonction des informations du champ de modèle, ce qui autorise une correspondance même si un champ prédit a été renommé. Les informations du champ de modèle peuvent aussi être accédées pour tout champ prédit à partir de la boîte de dialogue Valeurs grâce à un noeud Typer. Pour plus d'informations, voir la rubrique Utilisation de la boîte de dialogue Valeurs .
  • Format de nom de champ. Fait correspondre des champs en fonction de la convention de dénomination. Par exemple, des valeurs prédites générées par un nugget de modèle C5.0 pour une cible nommée réponse doivent se trouver dans un champ nommé $C-réponse.

Séparer par partition. Si un champ de partition est utilisé pour diviser des enregistrements en échantillons d'apprentissage, de test et de validation, sélectionnez cette option pour afficher les résultats séparément pour chaque partition. Pour plus d'informations, voir la rubrique Noeud de partition .

Remarque : lorsque vous séparez des enregistrements par partition, ceux dont le champ de partition contient des valeurs nulles sont exclus de l'analyse. Ce problème ne se pose jamais si un noeud Partitionner est utilisé, car ce type de noeud ne génère aucune valeur nulle.

Analyse définie par l'utilisateur. Permet d'indiquer le calcul d'analyse à utiliser pour l'évaluation des modèles. Utilisez des expressions CLEM pour spécifier ce qui doit être calculé pour chaque enregistrement et comment combiner les scores de niveau enregistrement en un score global. Utilisez les fonctions @TARGET et @PREDICTED pour faire référence respectivement à la valeur cible (sortie réelle) et à la valeur prédite.

  • Si. Indiquez une expression conditionnelle pour utiliser des calculs différents en fonction de certaines conditions.
  • Puis. Indiquez le calcul à utiliser si la condition Si a la valeur true (vrai).
  • Sinon. Indiquez le calcul à utiliser si la condition Si a la valeur false (faux).
  • Utiliser. Sélectionnez les statistiques à utiliser pour calculer un score global à partir des scores individuels.

Décomposition de l'analyse par champ. Affiche les champs catégoriels disponibles pour la décomposition de l'analyse. Outre l'analyse globale, une analyse distincte sera effectuée pour chaque catégorie de chaque champ de décomposition.