Was sind naive Bayes-Klassifikatoren?

Autor

Business Development + Partnerships

IBM Research

Was sind naive Bayes-Klassifikatoren?

Der naive Bayes-Klassifikator ist ein überwachter Algorithmus für maschinelles Lernen, der für Klassifizierungsaufgaben wie die Textklassifizierung verwendet wird. Er nutzt die Prinzipien der Wahrscheinlichkeit, um Klassifizierungsaufgaben durchzuführen.

Der naive Bayes-Klassifikator gehört zur Familie der generativen Lernalgorithmen. Das bedeutet, dass er versucht, die Verteilung der Eingaben einer bestimmten Klasse oder Kategorie zu modellieren. Im Gegensatz zu diskriminierenden Klassifikatoren, wie der logistischen Regression, lernt er nicht, welche Merkmale für die Unterscheidung zwischen den Klassen am wichtigsten sind.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Ein kurzer Überblick über die Bayes'sche Statistik

Naïve Bayes ist auch als probabilistischer Klassifikator bekannt, da er auf dem Bayes'schen Theorem basiert. Es wäre schwierig, diesen Algorithmus zu erklären, ohne auf die Grundlagen der Bayes'schen Statistik einzugehen. Dieses Theorem, das auch als Bayes-Regel bekannt ist, ermöglicht es uns, bedingte Wahrscheinlichkeiten „umzukehren“. Die bedingte Wahrscheinlichkeit gibt die Wahrscheinlichkeit eines Ereignisses wieder, wenn ein anderes Ereignis eingetreten ist. Das wird mit der folgenden Formel dargestellt:

Formel für die bedingte Wahrscheinlichkeit

Der Satz von Bayes zeichnet sich durch die Verwendung sequenzieller Ereignisse aus, bei denen später erworbene zusätzliche Informationen die ursprüngliche Wahrscheinlichkeit beeinflussen. Diese Wahrscheinlichkeiten werden als A-priori-Wahrscheinlichkeit und A-posteriori-Wahrscheinlichkeit bezeichnet. Die A-priori-Wahrscheinlichkeit ist die anfängliche Wahrscheinlichkeit eines Ereignisses, bevor es unter bestimmten Bedingungen kontextualisiert wird, oder die Randwahrscheinlichkeit. Die Posterior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses nach der Beobachtung eines Datenelements.

Ein beliebtes Beispiel in der Literatur zu Statistik und maschinellem Lernen (Link führt zu Seite außerhalb von ibm.com) für dieses Konzept sind medizinische Tests. Es gibt zum Beispiel eine Person namens Jane, die einen Test macht, um festzustellen, ob sie an Diabetes leidet. Nehmen wir an, dass die Gesamtwahrscheinlichkeit, an Diabetes zu erkranken, 5 % beträgt. Das wäre unsere A-priori-Wahrscheinlichkeit. Wenn sie jedoch bei ihrem Test ein positives Ergebnis erzielt, wird die vorherige Wahrscheinlichkeit aktualisiert, um diese zusätzlichen Informationen zu berücksichtigen. Das wird dann zu unserer A-posteriori-Wahrscheinlichkeit. Dieses Beispiel kann mit der folgenden Gleichung dargestellt werden, wobei der Satz von Bayes verwendet wird:

Formel für die bedingte Wahrscheinlichkeit von Diabetes und Testbeispiel

Da unser Wissen über A-priori-Wahrscheinlichkeiten angesichts anderer Variablen (z. B. Ernährung, Alter, Familiengeschichte usw.) jedoch nicht exakt sein dürfte, nutzen wir in der Regel Wahrscheinlichkeitsverteilungen aus Zufallsstichproben und vereinfachen die Gleichung zu P(Y|X) = P(X|Y)P(Y) / P(X)

Die Rückkehr zu den naiven Bayes-Klassifikatoren

Naive Bayes-Klassifikatoren funktionieren anders, da sie unter einer Reihe von Grundannahmen arbeiten, was ihnen den Zusatz „naiv“ einbrachte. Es wird davon ausgegangen, dass die Prädiktoren in einem naiven Bayes-Modell bedingt unabhängig sind, d. h. in keinem Zusammenhang mit den anderen Merkmalen des Modells stehen. Außerdem wird angenommen, dass alle Merkmale gleichermaßen zum Ergebnis beitragen. Diese Annahmen werden zwar in der Praxis oft verletzt (z. B. hängt ein nachfolgendes Wort in einer E-Mail von dem Wort ab, das ihm vorausgeht), aber sie vereinfachen ein Klassifizierungsproblem, indem sie es rechnerisch überschaubarer machen. Das heißt, dass für jede Variable nur noch eine einzige Wahrscheinlichkeit benötigt wird, was wiederum die Modellberechnung erleichtert. Trotz dieser unrealistischen Unabhängigkeitsannahme schneidet der Klassifizierungsalgorithmus gut ab, insbesondere bei kleinen Stichprobengrößen.

Mit dieser Annahme im Hinterkopf können wir jetzt die Teile eines Naïve-Bayes-Klassifikators genauer untersuchen. Ähnlich wie beim Theorem von Bayes verwendet es bedingte und vorherige Wahrscheinlichkeiten, um die späteren Wahrscheinlichkeiten mit der folgenden Formel zu berechnen:

Formel der A-posteriori-Wahrscheinlichkeit

Stellen wir uns nun einen Anwendungsfall zur Textklassifizierung vor, um zu veranschaulichen, wie der naive Bayes-Algorithmus funktioniert. Stellen Sie sich einen E-Mail-Anbieter vor, der seinen Spam-Filter verbessern möchte. Die Trainingsdaten bestehen aus Wörtern aus E-Mails, die entweder als „Spam“ oder als „kein Spam“ klassifiziert wurden. Von dort aus werden die bedingten Wahrscheinlichkeiten der Klassen und die vorherigen Wahrscheinlichkeiten berechnet, um die nachträgliche Wahrscheinlichkeit zu erhalten. Der naive Bayes-Klassifikator gibt die Klasse zurück, welche die größte A-posteriori-Wahrscheinlichkeit aus einer Gruppe von Klassen (d. h. „Spam“ oder „kein Spam“) für eine bestimmte E-Mail hat. Diese Berechnung wird mit der folgenden Formel dargestellt:

Formel zur Berechnung der maximalen A-posteriori-Wahrscheinlichkeit

Da sich jede Klasse auf dasselbe Textelement bezieht, können wir den Nenner aus dieser Gleichung eliminieren und sie zu folgender Formel vereinfachen:

Vereinfachte Formel zur Berechnung der maximalen A-posteriori-Wahrscheinlichkeit

Die Genauigkeit des Lernalgorithmus wird anhand der Leistung des Testdatensatzes bewertet, der auf dem Trainingsdatensatz basiert.

Klassenbedingte Wahrscheinlichkeiten

Um dies etwas zu verdeutlichen, gehen wir eine Ebene tiefer zu den einzelnen Teilen, aus denen sich diese Formel zusammensetzt. Die klassenbedingten Wahrscheinlichkeiten sind die individuellen Wahrscheinlichkeiten für jedes Wort in einer E-Mail. Diese werden berechnet, indem die Häufigkeit jedes Wortes für jede Kategorie (also „Spam“ oder „kein Spam“) bestimmt wird, was auch als Maximum-Likelihood-Schätzung (MLE) bekannt ist. Wenn wir in diesem Beispiel die Phrase „Sehr geehrter Herr“ untersuchen würden, würden wir einfach berechnen, wie oft diese Wörter in allen Spam- und Nicht-Spam-E-Mails vorkommen. Dies kann durch die folgende Formel dargestellt werden, wobei y für „Sehr geehrter Herr“ und x für „Spam“ steht.

Formel für die bedingte Wahrscheinlichkeit für ein Spam-Beispiel

A-priori-Wahrscheinlichkeiten

A-priori-Wahrscheinlichkeiten sind genau das, was wir zuvor mit der Bayes-Theorie beschrieben haben. Auf der Grundlage des Trainingssatzes können wir die Gesamtwahrscheinlichkeit berechnen, dass eine E-Mail „Spam“ oder „kein Spam“ ist. Die A-priori-Wahrscheinlichkeit für die Klassenbezeichnung „Spam“ wird in der folgenden Formel dargestellt:

Formel zur Berechnung der Spam-Wahrscheinlichkeit

Die A-priori-Wahrscheinlichkeit dient als „Gewicht“ für die klassenbedingte Wahrscheinlichkeit, wenn die beiden Werte miteinander multipliziert werden, was die einzelnen A-posteriori-Wahrscheinlichkeiten ergibt. Von dort aus wird die maximale A- posteriori-Schätzung (MAP) berechnet, um die Klasse entweder als Spam oder als Nicht-Spam zu kennzeichnen. Die endgültige Gleichung für die naive Bayes-Gleichung kann folgendermaßen dargestellt werden:

Alternativ kann es auch im Log-Raum dargestellt werden, da naive Bayes-Klassifikatoren üblicherweise in dieser Form verwendet werden:

Alternative Darstellung der naiven Bayes'schen Gleichung

Bewertung des naiven Bayes-Klassifikators

Eine Möglichkeit zur Bewertung Ihres Klassifikators besteht in der Darstellung einer Konfusionsmatrix, in der die tatsächlichen und die vorhergesagten Werte in einer Matrix dargestellt werden. Die Zeilen stellen im Allgemeinen die tatsächlichen Werte dar, während die Spalten die vorhergesagten Werte repräsentieren. In vielen Handbüchern wird diese Abbildung als 2 x 2-Diagramm dargestellt, wie zum Beispiel im Folgenden:

Visualisierung zur Interpretation einer Konfusionsmatrix

Wenn Sie jedoch Bilder von Null bis 9 vorhersagen würden, hätten Sie ein 10 x 10 Diagramm. Wenn Sie wissen möchten, wie oft der Klassifikator Bilder mit 4en mit 9en „verwechselt“ hat, brauchen Sie nur die Zeile 4 und die Spalte 9 zu überprüfen.

Typen von naiven Bayes-Klassifikatoren

Es gibt nicht nur einen naiven Typ naiver Bayes-Klassifikatoren. Die gängigsten Typen unterscheiden sich durch die Verteilung der Merkmalswerte. Einige davon sind:

Gaussian Naïve Bayes (GaussianNB): Dies ist eine Variante des naiven Bayes-Klassifikators, die mit Gaußschen Verteilungen, also Normalverteilungen und kontinuierliche Variablen, verwendet wird. Dieses Modell wird angepasst, indem der Mittelwert und die Standardabweichung jeder Klasse ermittelt werden.
Multinomial Naive Bayes (MultinomialNB): Bei dieser naiven Bayes-Klassifizierung stammen die Merkmale aus multinomialen Verteilungen. Diese Variante ist nützlich, wenn Sie diskrete Daten verwenden, wie z. B. Frequenzzählungen, und sie wird in der Regel bei der Verarbeitung natürlicher Sprache eingesetzt, z. B. bei der Spam-Klassifizierung.
Bernoulli Naive Bayes (BernoulliNB): Dies ist eine weitere Variante des naiven Bayes-Klassifikators, der mit booleschen Variablen verwendet wird, d. h. Variablen mit zwei Werten, wie Wahr und Falsch oder 1 und 0.

All dies kann über die Python-Bibliothek Scikit Learn implementiert werden (auch Sklearn genannt).

AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Zur Episode wechseln

Vor- und Nachteile des naiven Bayes-Klassifikators

Vorteile

Weniger komplex: Im Vergleich zu anderen Klassifikatoren gilt der einfache naïve Bayes-Klassifikator, da die Parameter leichter zu schätzen sind. Als Ergebnis ist es einer der ersten Algorithmen, die in Kursen für Data Science und maschinelles Lernen gelernt werden.
Gut skalierbar: Im Vergleich zur logistischen Regression ist der naive Bayes-Klassifikator schneller und effizienter, da er ziemlich genau ist, wenn die Annahme der bedingten Unabhängigkeit zutrifft. Auch ist der Speicherbedarf gering.
Kann mit hochdimensionalen Daten umgehen: Anwendungsfälle, wie die Klassifizierung von Dokumenten, können eine hohe Anzahl von Dimensionen aufweisen, die für andere Klassifikatoren schwierig zu handhaben sein können.

Nachteile:

Abhängig von der Nullfrequenz: Eine Nullhäufigkeit liegt vor, wenn eine kategoriale Variable in der Übungsmenge nicht vorhanden ist. Stellen Sie sich zum Beispiel vor, dass wir versuchen, den maximalen Wahrscheinlichkeitsschätzwert für das Wort „Sir“ in der Klasse „Spam“ zu finden, aber das Wort „Sir“ existiert nicht in den Trainingsdaten. Die Wahrscheinlichkeit wäre in diesem Fall gleich Null. Da dieser Klassifikator alle bedingten Wahrscheinlichkeiten miteinander multipliziert, bedeutet dies auch, dass die A-posterior-Wahrscheinlichkeit Null ist. Um dieses Problem zu vermeiden, kann die Laplace-Glättung genutzt werden.
Unrealistische Grundannahme: Während die Annahme der vorausgesetzten Wahrscheinlichkeit der Abhängigkeit im Großen und Ganzen gut funktioniert, trifft sie nicht immer zu und führt zu falschen Klassifizierungen.

Anwendungen des naiven Bayes-Klassifikators

Zusammen mit einer Reihe anderer Algorithmen gehört der naive Bayes-Klassifikator zu einer Familie von Data-Mining-Algorithmen, die große Datenmengen in nützliche Informationen verwandeln. Einige Anwendungen des Naive Bayes umfassen:

Spam-Filterung: Die Spam-Klassifizierung ist eine der in der Literatur am häufigsten zitierten Anwendungen von Naive Bayes. Wenn Sie mehr über diesen Anwendungsfall erfahren möchten, lesen Sie dieses Kapitel von Oreilly.
Klassifizierung von Dokumenten: Dokument- und Textklassifizierung gehen Hand in Hand. Ein weiterer bekannter Anwendungsfall ist die Klassifizierung von Inhalten. Man stelle sich die Inhaltskategorien einer Nachrichtenmedien-Website vor. Alle inhaltlichen Kategorien können anhand der einzelnen Artikel auf der Website in eine thematische Taxonomie eingeordnet werden. Federick Mosteller und David Wallace wird die erste Anwendung der Bayes'schen Inferenz in ihrer Arbeit von 1963 zugeschrieben.
Stimmungsanalyse: Die Stimmungsanalyse ist eine weitere Form der Textklassifizierung und wird häufig im Marketing eingesetzt, um Meinungen und Einstellungen zu bestimmten Produkten und Marken besser zu verstehen und zu quantifizieren.
Vorhersage mentaler Zustände: Mithilfe von fMRI-Daten wurde Naive Bayes eingesetzt, um verschiedene kognitive Zustände bei Menschen vorherzusagen. Das Ziel dieser Forschung war es, verborgene kognitive Zustände besser zu verstehen, insbesondere bei Patienten mit Hirnverletzungen.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Was sind naive Bayes-Klassifikatoren?

Autor

Was sind naive Bayes-Klassifikatoren?

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ein kurzer Überblick über die Bayes'sche Statistik

Die Rückkehr zu den naiven Bayes-Klassifikatoren

Klassenbedingte Wahrscheinlichkeiten

A-priori-Wahrscheinlichkeiten

Bewertung des naiven Bayes-Klassifikators

Typen von naiven Bayes-Klassifikatoren

Nutzen Sie KI für Ihren Kundenservice

Vor- und Nachteile des naiven Bayes-Klassifikators

Vorteile

Nachteile:

Anwendungen des naiven Bayes-Klassifikators

Ressourcen