Pour aller plus loin, intéressons-nous aux éléments individuels de cette formule. Les probabilités conditionnelles de classe sont les probabilités individuelles de l’apparition de chaque mot dans un e-mail. Ces dernières sont calculées en déterminant la fréquence de chaque mot dans chaque catégorie, c’est-à-dire « spam » ou « non-spam », que l’on appelle également l’estimateur du maximum de vraisemblance (MLE). Dans cet exemple, si nous examinions l’expression « Cher Monsieur », nous calculerions simplement la fréquence à laquelle ces mots apparaissent dans tous les e-mails classés comme spam et non-spam. Cette valeur peut être représentée par la formule ci-dessous, où y représente « Cher Monsieur » et x la catégorie « spam ».