Qu’est-ce qu’un classificateur Bayes naïf ?

Auteur

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Qu’est-ce qu’un classificateur Bayes naïf ?

Le classificateur Bayes naïf est un algorithme de machine learning supervisé utilisé pour des tâches de classification telles que la classification de texte. Il utilise les principes de probabilité pour effectuer ces tâches de classification.

Le classificateur Bayes naïf fait partie d’une famille d’algorithmes d’apprentissage génératif, c’est-à-dire qu’il a pour but de modéliser la distribution des entrées d’une classe ou d’une catégorie donnée. Contrairement aux classificateurs discriminants, comme la régression logistique, il n’apprend pas les caractéristiques les plus importantes pour différencier les classes.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Un bref aperçu des statistiques bayésiennes

Le classificateur Bayes naïf est également considéré comme un classificateur probabiliste, car il est basé sur le théorème de Bayes. Il serait difficile d’expliquer cet algorithme sans expliquer les bases de la statistique bayésienne. Ce théorème, également connu sous le nom de règle de Bayes, nous permet « d’inverser » les probabilités conditionnelles. Pour rappel, les probabilités conditionnelles représentent la probabilité qu’un événement se produise sachant qu’un autre événement a eu lieu, ce qui est représenté par la formule suivante :

Formule de probabilité conditionnelle

Le théorème de Bayes se distingue par son utilisation d’événements séquentiels, où des informations supplémentaires acquises ultérieurement ont un impact sur la probabilité initiale. Ces probabilités sont désignées par la probabilité a priori et la probabilité a posteriori. La probabilité a priori est la probabilité initiale d’un événement avant qu’une certaine condition n’intervienne dans son contexte, ou la probabilité marginale. La probabilité a posteriori est la probabilité d’un événement après l’observation d’une donnée.

Les tests médicaux sont un exemple fréquemment cité dans la littérature sur les statistiques et le machine learning (lien externe à ibm.com) pour illustrer ce concept. Imaginons par exemple qu’une personne nommée Jane passe un test pour déterminer si elle est atteinte de diabète. Supposons que la probabilité globale qu’un patient souffre de diabète soit de 5 % ; ce serait notre probabilité a priori. Mais si le résultat du test de Jane était positif, la probabilité a priori serait mise à jour pour tenir compte de ces informations supplémentaires, et elle deviendrait alors notre probabilité a posteriori. Cet exemple peut être représenté avec l’équation suivante, qui utilise le théorème de Bayes :

Formule de probabilité conditionnelle pour l’exemple sur le diabète et les tests

Cependant, il y a de fortes chances que nos probabilités a priori soient loin d’être exactes, car elles ne tiennent pas compte d’autres variables comme le régime alimentaire, l’âge, les antécédents familiaux, etc. C’est pourquoi nous nous appuyons généralement sur des distributions de probabilités provenant d’échantillons aléatoires, ce qui simplifie l’équation : P(Y|X) = P(X|Y)P(Y) / P(X)

Retour aux classificateurs Bayes naïfs

Les classificateurs Bayers naïfs fonctionnent différemment dans la mesure où ils tiennent compte de quelques hypothèses clés, ce qui leur vaut ce qualificatif. Ils supposent que les prédicteurs d’un modèle Bayes naïf sont conditionnellement indépendants ou sans lien avec les autres caractéristiques du modèle. Ils supposent également que toutes les caractéristiques contribuent de manière égale au résultat. Bien que ces hypothèses soient souvent enfreintes dans des scénarios concrets (par exemple, le mot qui suit dans un e-mail dépend du mot qui le précède), cela simplifie la classification, car les variables du calcul sont plus faciles à manier. Autrement dit, une seule probabilité est désormais requise pour chaque variable, ce qui facilite le calcul du modèle. Malgré cette hypothèse d’indépendance irréaliste, l’algorithme de classification fonctionne bien, en particulier avec des échantillons de petite taille.

En gardant cette hypothèse à l’esprit, nous pouvons maintenant réexaminer de plus près les composants d’un classificateur Bayes naïf. Comme dans le théorème de Bayes, il utilise les probabilités conditionnelles et a priori pour calculer les probabilités a posteriori à l’aide de la formule suivante :

Formule de probabilité a posteriori

Imaginons maintenant un cas d’utilisation de classification de texte pour illustrer le fonctionnement de l’algorithme Bayes naïf. Prenons l’exemple d’un fournisseur de messagerie qui chercherait à améliorer son filtre antispam. Les données d’entraînement seraient constituées de mots tirés d’e-mails classés comme « spam » ou « non-spam ». À partir de là, les probabilités conditionnelles de la classe et les probabilités a priori sont calculées pour donner la probabilité a posteriori. Le classificateur Bayes naïf renverra la classe qui a la probabilité a posteriori maximale parmi un groupe de classes (c’est-à-dire « spam » ou « non-spam ») pour un e-mail donné. Ce calcul est représenté par la formule suivante :

Formule de calcul de la probabilité a posteriori maximale

Comme chaque classe fait référence au même texte, nous pouvons éliminer le dénominateur de cette équation, la simplifiant ainsi :

Formule simplifiée pour le calcul de la probabilité a posteriori maximale

La précision de l’algorithme d’apprentissage basé sur le jeu de données d’entraînement est ensuite évaluée en fonction des performances du jeu de données de test.

Probabilités conditionnelles de classe

Pour aller plus loin, intéressons-nous aux éléments individuels de cette formule. Les probabilités conditionnelles de classe sont les probabilités individuelles de l’apparition de chaque mot dans un e-mail. Ces dernières sont calculées en déterminant la fréquence de chaque mot dans chaque catégorie, c’est-à-dire « spam » ou « non-spam », que l’on appelle également l’estimateur du maximum de vraisemblance (MLE). Dans cet exemple, si nous examinions l’expression « Cher Monsieur », nous calculerions simplement la fréquence à laquelle ces mots apparaissent dans tous les e-mails classés comme spam et non-spam. Cette valeur peut être représentée par la formule ci-dessous, où y représente « Cher Monsieur » et x la catégorie « spam ».

Formule de probabilité conditionnelle pour l’exemple sur les spams

Probabilités a priori

Les probabilités a priori sont celles que nous avons décrites précédemment en expliquant le théorème de Bayes. Sur la base du jeu d’entraînement, nous pouvons calculer la probabilité globale qu’un e-mail soit du type « spam » ou « non-spam ». La probabilité a priori de l’étiquette de classe « spam » serait représentée par la formule suivante :

Formule de calcul de la probabilité de spam

La probabilité a priori agit comme une « pondération » pour la probabilité conditionnelle de classe lorsque les deux valeurs sont multipliées entre elles, ce qui donne les probabilités a posteriori individuelles. À partir de là, l’estimateur du maximum a posteriori (MAP) est calculé pour attribuer une étiquette de classe (spam ou non-spam). L’équation naïve bayésienne finale peut être représentée comme suit :

Équation bayésienne naïve

Elle peut également être représentée dans l’espace logarithmique, car elle est couramment utilisée sous cette forme :

Autre représentation de l’équation bayésienne naïve

Évaluer votre classificateur naïf bayésien

Pour évaluer votre classificateur, vous pouvez par exemple utiliser une matrice de confusion, qui représentera les valeurs réelles et prédites dans un tableau. Les lignes représentent généralement les valeurs réelles tandis que les colonnes représentent les valeurs prédites. De nombreux guides illustrent cette figure sous la forme d’une représentation 2 x 2, comme suit :

Visualisation de l’interprétation d’une matrice de confusion

Toutefois, si vous prédisiez des images de 0 à 9, vous obtiendriez une représentation 10 x 10. Pour connaître le nombre de « confusions » des images 4 et 9 effectuées par le classificateur, il vous suffirait de regarder la 4e ligne et la 9e colonne.

Exemple de matrice de confusion

Types de classificateurs Bayes naïfs

Il existe plusieurs types de classificateurs Bayes naïfs. Les types les plus populaires varient en fonction de la distribution des valeurs de caractéristiques. En voici quelques-uns :

  • Naïve Bayes gaussien (GaussianNB) : Il s’agit d’une variante de classificateur Bayes naïf, utilisée avec des distributions gaussiennes, c’est-à-dire des distributions normales, et des variables continues. Ce modèle est ajusté en trouvant la moyenne et l’écart-type de chaque classe.
  • Naïve Bayes multinomial (MultinomialNB) : Ce type de classificateur Bayes naïf suppose que les caractéristiques proviennent de distributions multinomiales. Cette variante est utile lors de l’utilisation de données discrètes, telles que des valeurs de fréquence, et elle est généralement appliquée dans les cas d’utilisation de traitement automatique du langage naturel, comme la classification des spams.
  • Naïve Bayes de Bernoulli (BernoulliNB) : Il s’agit d’une autre variante des classificateurs Bayes naïfs, utilisée avec des variables booléennes, c’est-à-dire des variables à deux valeurs, telles que Vrai et Faux ou 1 et 0.

Tous ces éléments peuvent être mis en œuvre grâce à la bibliothèque Python Scikit Learn (également appelée sklearn).

AI Academy

Exploiter l’IA pour le service client

Découvrez comment l’IA générative peut ravir les clients avec une expérience plus transparente et augmenter la productivité de l’organisation dans ces trois domaines clés : le libre-service, les agents humains et les opérations du centre de contact.

Avantages et inconvénients de la classification naïve bayésienne

Avantages

  • Moins complexe : Comparée aux autres classificateurs, la classification naïve bayésienne est considérée comme plus simple, car les paramètres sont plus faciles à estimer. Il s’agit donc de l’un des premiers algorithmes appris dans les cours de science des données et de machine learning.
  • Bonne évolutivité : par rapport à la régression logistique, la classification naïve bayésienne est considérée comme une méthode rapide et efficace, relativement précise lorsque l’hypothèse d’indépendance conditionnelle est vérifiée. De plus, elle a de faibles exigences en matière de stockage.
  • Capable de gérer des données de grande dimension : certains cas d’utilisation, tels que la classification de documents, peuvent compter de nombreuses dimensions, ce qui peut être difficile à gérer pour d’autres classificateurs.

Inconvénients :

  • Sujette à la fréquence zéro : la fréquence zéro se produit lorsqu’une variable nominale n’existe pas dans le jeu d’entraînement. Imaginez par exemple que nous essayions de trouver l’estimateur du maximum de vraisemblance pour le mot « monsieur » dans la classe « spam », mais que le mot « monsieur » ne figure pas dans les données d’apprentissage. Dans ce cas, la probabilité serait nulle, et comme ce classificateur multiplie toutes les probabilités conditionnelles, cela équivaudrait à une probabilité a posteriori nulle. Pour éviter ce problème, le lissage de Laplace peut être utilisé.
  • Hypothèse principale irréaliste : bien que l’hypothèse d’indépendance conditionnelle fonctionne bien dans l’ensemble, elle n’est pas toujours vérifiée, ce qui conduit à des classifications incorrectes.

Applications de la classification naïve bayésienne

Comme un certain nombre d’autres algorithmes, la classification naïve bayésienne appartient à une famille d’algorithmes de data mining qui transforment de grands volumes de données en informations utiles. Voici quelques applications de la classification naïve bayésienne :

  • Filtre antispam : la classification des spams est l’une des applications les plus populaires des algorithmes Bayes naïfs citées dans la littérature. Pour en savoir plus sur ce cas d’utilisation, consultez ce chapitre d’O’Reilly.
  • Classification de documents : la classification de documents et de texte vont de pair. Un autre cas d’utilisation populaire des classificateurs naïfs bayésiens est la classification de contenu. Prenons comme exemple les catégories de contenu d’un site d’actualités. Toutes les catégories de contenu peuvent être classées dans une taxonomie thématique basée sur chaque article du site. Frederick Mosteller et David Wallace sont crédités de la première application de l’inférence bayésienne dans leur article de 1963.
  • Analyse des sentiments: bien qu’il s’agisse d’une autre forme de classification de texte, l’analyse des sentiments est couramment utilisée dans le marketing pour mieux comprendre et quantifier les opinions et les attitudes des utilisateurs concernant des produits et des marques spécifiques. 
  • Prédictions de l’état mental : en se basant sur des données d’imagerie par résonance magnétique fonctionnelle (fMRI), la classification naïve bayésienne a été exploitée pour prédire différents états cognitifs chez les humains. L’objectif de ces recherches était de mieux comprendre les états cognitifs cachés chez les humains, en particulier chez les patients atteints de lésions cérébrales.
Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct