Was sind naive Bayes-Klassifikatoren?

Was sind naive Bayes-Klassifikatoren?

Der naive Bayes-Klassifikator ist ein überwachter Algorithmus für maschinelles Lernen, der für Klassifizierungsaufgaben wie die Textklassifizierung verwendet wird. Er nutzt die Prinzipien der Wahrscheinlichkeit, um Klassifizierungsaufgaben durchzuführen.

Der naive Bayes-Klassifikator gehört zur Familie der generativen Lernalgorithmen. Das bedeutet, dass er versucht, die Verteilung der Eingaben einer bestimmten Klasse oder Kategorie zu modellieren. Im Gegensatz zu diskriminierenden Klassifikatoren, wie der logistischen Regression, lernt er nicht, welche Merkmale für die Unterscheidung zwischen den Klassen am wichtigsten sind.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Ein kurzer Überblick über die Bayes'sche Statistik

Naïve Bayes ist auch als probabilistischer Klassifikator bekannt, da er auf dem Bayes'schen Theorem basiert. Es wäre schwierig, diesen Algorithmus zu erklären, ohne auf die Grundlagen der Bayes'schen Statistik einzugehen. Dieses Theorem, das auch als Bayes-Regel bekannt ist, ermöglicht es uns, bedingte Wahrscheinlichkeiten „umzukehren“. Die bedingte Wahrscheinlichkeit gibt die Wahrscheinlichkeit eines Ereignisses wieder, wenn ein anderes Ereignis eingetreten ist. Das wird mit der folgenden Formel dargestellt:

Der Satz von Bayes zeichnet sich durch die Verwendung sequenzieller Ereignisse aus, bei denen später erworbene zusätzliche Informationen die ursprüngliche Wahrscheinlichkeit beeinflussen. Diese Wahrscheinlichkeiten werden als A-priori-Wahrscheinlichkeit und A-posteriori-Wahrscheinlichkeit bezeichnet. Die A-priori-Wahrscheinlichkeit ist die anfängliche Wahrscheinlichkeit eines Ereignisses, bevor es unter bestimmten Bedingungen kontextualisiert wird, oder die Randwahrscheinlichkeit. Die Posterior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses nach der Beobachtung eines Datenelements.

Ein beliebtes Beispiel in der Literatur zu Statistik und maschinellem Lernen (Link führt zu Seite außerhalb von ibm.com) für dieses Konzept sind medizinische Tests. Es gibt zum Beispiel eine Person namens Jane, die einen Test macht, um festzustellen, ob sie an Diabetes leidet. Nehmen wir an, dass die Gesamtwahrscheinlichkeit, an Diabetes zu erkranken, 5 % beträgt. Das wäre unsere A-priori-Wahrscheinlichkeit. Wenn sie jedoch bei ihrem Test ein positives Ergebnis erzielt, wird die vorherige Wahrscheinlichkeit aktualisiert, um diese zusätzlichen Informationen zu berücksichtigen. Das wird dann zu unserer A-posteriori-Wahrscheinlichkeit. Dieses Beispiel kann mit der folgenden Gleichung dargestellt werden, wobei der Satz von Bayes verwendet wird:

Da unser Wissen über A-priori-Wahrscheinlichkeiten angesichts anderer Variablen (z. B. Ernährung, Alter, Familiengeschichte usw.) jedoch nicht exakt sein dürfte, nutzen wir in der Regel Wahrscheinlichkeitsverteilungen aus Zufallsstichproben und vereinfachen die Gleichung zu P(Y|X) = P(X|Y)P(Y) / P(X)

Die Rückkehr zu den naiven Bayes-Klassifikatoren

Naive Bayes-Klassifikatoren funktionieren anders, da sie unter einer Reihe von Grundannahmen arbeiten, was ihnen den Zusatz „naiv“ einbrachte. Es wird davon ausgegangen, dass die Prädiktoren in einem naiven Bayes-Modell bedingt unabhängig sind, d. h. in keinem Zusammenhang mit den anderen Merkmalen des Modells stehen. Außerdem wird angenommen, dass alle Merkmale gleichermaßen zum Ergebnis beitragen. Diese Annahmen werden zwar in der Praxis oft verletzt (z. B. hängt ein nachfolgendes Wort in einer E-Mail von dem Wort ab, das ihm vorausgeht), aber sie vereinfachen ein Klassifizierungsproblem, indem sie es rechnerisch überschaubarer machen. Das heißt, dass für jede Variable nur noch eine einzige Wahrscheinlichkeit benötigt wird, was wiederum die Modellberechnung erleichtert. Trotz dieser unrealistischen Unabhängigkeitsannahme schneidet der Klassifizierungsalgorithmus gut ab, insbesondere bei kleinen Stichprobengrößen.

Mit dieser Annahme im Hinterkopf können wir jetzt die Teile eines Naïve-Bayes-Klassifikators genauer untersuchen. Ähnlich wie beim Theorem von Bayes verwendet es bedingte und vorherige Wahrscheinlichkeiten, um die späteren Wahrscheinlichkeiten mit der folgenden Formel zu berechnen:

Stellen wir uns nun einen Anwendungsfall zur Textklassifizierung vor, um zu veranschaulichen, wie der naive Bayes-Algorithmus funktioniert. Stellen Sie sich einen E-Mail-Anbieter vor, der seinen Spam-Filter verbessern möchte. Die Trainingsdaten bestehen aus Wörtern aus E-Mails, die entweder als „Spam“ oder als „kein Spam“ klassifiziert wurden. Von dort aus werden die bedingten Wahrscheinlichkeiten der Klassen und die vorherigen Wahrscheinlichkeiten berechnet, um die nachträgliche Wahrscheinlichkeit zu erhalten. Der naive Bayes-Klassifikator gibt die Klasse zurück, welche die größte A-posteriori-Wahrscheinlichkeit aus einer Gruppe von Klassen (d. h. „Spam“ oder „kein Spam“) für eine bestimmte E-Mail hat. Diese Berechnung wird mit der folgenden Formel dargestellt:

Da sich jede Klasse auf dasselbe Textelement bezieht, können wir den Nenner aus dieser Gleichung eliminieren und sie zu folgender Formel vereinfachen:

Die Genauigkeit des Lernalgorithmus wird anhand der Leistung des Testdatensatzes bewertet, der auf dem Trainingsdatensatz basiert.

Klassenbedingte Wahrscheinlichkeiten

Um dies etwas zu verdeutlichen, gehen wir eine Ebene tiefer zu den einzelnen Teilen, aus denen sich diese Formel zusammensetzt. Die klassenbedingten Wahrscheinlichkeiten sind die individuellen Wahrscheinlichkeiten für jedes Wort in einer E-Mail. Diese werden berechnet, indem die Häufigkeit jedes Wortes für jede Kategorie (also „Spam“ oder „kein Spam“) bestimmt wird, was auch als Maximum-Likelihood-Schätzung (MLE) bekannt ist. Wenn wir in diesem Beispiel die Phrase „Sehr geehrter Herr“ untersuchen würden, würden wir einfach berechnen, wie oft diese Wörter in allen Spam- und Nicht-Spam-E-Mails vorkommen. Dies kann durch die folgende Formel dargestellt werden, wobei y für „Sehr geehrter Herr“ und x für „Spam“ steht.

A-priori-Wahrscheinlichkeiten

A-priori-Wahrscheinlichkeiten sind genau das, was wir zuvor mit der Bayes-Theorie beschrieben haben. Auf der Grundlage des Trainingssatzes können wir die Gesamtwahrscheinlichkeit berechnen, dass eine E-Mail „Spam“ oder „kein Spam“ ist. Die A-priori-Wahrscheinlichkeit für die Klassenbezeichnung „Spam“ wird in der folgenden Formel dargestellt:

Die A-priori-Wahrscheinlichkeit dient als „Gewicht“ für die klassenbedingte Wahrscheinlichkeit, wenn die beiden Werte miteinander multipliziert werden, was die einzelnen A-posteriori-Wahrscheinlichkeiten ergibt. Von dort aus wird die maximale A- posteriori-Schätzung (MAP) berechnet, um die Klasse entweder als Spam oder als Nicht-Spam zu kennzeichnen. Die endgültige Gleichung für die naive Bayes-Gleichung kann folgendermaßen dargestellt werden:

Alternativ kann es auch im Log-Raum dargestellt werden, da naive Bayes-Klassifikatoren üblicherweise in dieser Form verwendet werden:

Bewertung des naiven Bayes-Klassifikators

Eine Möglichkeit zur Bewertung Ihres Klassifikators besteht in der Darstellung einer Konfusionsmatrix, in der die tatsächlichen und die vorhergesagten Werte in einer Matrix dargestellt werden. Die Zeilen stellen im Allgemeinen die tatsächlichen Werte dar, während die Spalten die vorhergesagten Werte repräsentieren. In vielen Handbüchern wird diese Abbildung als 2 x 2-Diagramm dargestellt, wie zum Beispiel im Folgenden:

Wenn Sie jedoch Bilder von Null bis 9 vorhersagen würden, hätten Sie ein 10 x 10 Diagramm. Wenn Sie wissen möchten, wie oft der Klassifikator Bilder mit 4en mit 9en „verwechselt“ hat, brauchen Sie nur die Zeile 4 und die Spalte 9 zu überprüfen.

Typen von naiven Bayes-Klassifikatoren

Es gibt nicht nur einen naiven Typ naiver Bayes-Klassifikatoren. Die gängigsten Typen unterscheiden sich durch die Verteilung der Merkmalswerte. Einige davon sind:

  • Gaussian Naïve Bayes (GaussianNB): Dies ist eine Variante des naiven Bayes-Klassifikators, die mit Gaußschen Verteilungen, also Normalverteilungen und kontinuierliche Variablen, verwendet wird. Dieses Modell wird angepasst, indem der Mittelwert und die Standardabweichung jeder Klasse ermittelt werden.
  • Multinomial Naive Bayes (MultinomialNB): Bei dieser naiven Bayes-Klassifizierung stammen die Merkmale aus multinomialen Verteilungen. Diese Variante ist nützlich, wenn Sie diskrete Daten verwenden, wie z. B. Frequenzzählungen, und sie wird in der Regel bei der Verarbeitung natürlicher Sprache eingesetzt, z. B. bei der Spam-Klassifizierung.
  • Bernoulli Naive Bayes (BernoulliNB): Dies ist eine weitere Variante des naiven Bayes-Klassifikators, der mit booleschen Variablen verwendet wird, d. h. Variablen mit zwei Werten, wie Wahr und Falsch oder 1 und 0.

All dies kann über die Python-Bibliothek Scikit Learn (Link befindet sich außerhalb von ibm.com) implementiert werden (auch Sklearn genannt).

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Vor- und Nachteile des naiven Bayes-Klassifikators

Vorteile

  • Weniger komplex: Im Vergleich zu anderen Klassifikatoren gilt der einfache naïve Bayes-Klassifikator, da die Parameter leichter zu schätzen sind. Als Ergebnis ist es einer der ersten Algorithmen, die in Kursen für Data Science und maschinelles Lernen gelernt werden.
  • Gut skalierbar: Im Vergleich zur logistischen Regression ist der naive Bayes-Klassifikator schneller und effizienter, da er ziemlich genau ist, wenn die Annahme der bedingten Unabhängigkeit zutrifft. Auch ist der Speicherbedarf gering.
  • Kann mit hochdimensionalen Daten umgehen: Anwendungsfälle, wie die Klassifizierung von Dokumenten, können eine hohe Anzahl von Dimensionen aufweisen, die für andere Klassifikatoren schwierig zu handhaben sein können.

Nachteile:

  • Abhängig von der Nullfrequenz: Eine Nullhäufigkeit liegt vor, wenn eine kategoriale Variable in der Übungsmenge nicht vorhanden ist. Stellen Sie sich zum Beispiel vor, dass wir versuchen, den maximalen Wahrscheinlichkeitsschätzwert für das Wort „Sir“ in der Klasse „Spam“ zu finden, aber das Wort „Sir“ existiert nicht in den Trainingsdaten. Die Wahrscheinlichkeit wäre in diesem Fall gleich Null. Da dieser Klassifikator alle bedingten Wahrscheinlichkeiten miteinander multipliziert, bedeutet dies auch, dass die A-posterior-Wahrscheinlichkeit Null ist. Um dieses Problem zu vermeiden, kann die Laplace-Glättung genutzt werden.
  • Unrealistische Grundannahme: Während die Annahme der vorausgesetzten Wahrscheinlichkeit der Abhängigkeit im Großen und Ganzen gut funktioniert, trifft sie nicht immer zu und führt zu falschen Klassifizierungen.

Anwendungen des naiven Bayes-Klassifikators

Zusammen mit einer Reihe anderer Algorithmen gehört der naive Bayes-Klassifikator zu einer Familie von Data-Mining-Algorithmen, die große Datenmengen in nützliche Informationen verwandeln. Einige Anwendungen des Naive Bayes umfassen:

  • Spam-Filterung: Die Spam-Klassifizierung ist eine der in der Literatur am häufigsten zitierten Anwendungen von Naive Bayes. Wenn Sie mehr über diesen Anwendungsfall erfahren möchten, lesen Sie dieses Kapitel von Oreilly (Link befindet sich außerhalb von ibm.com).
  • Klassifizierung von Dokumenten: Dokument- und Textklassifizierung gehen Hand in Hand. Ein weiterer bekannter Anwendungsfall ist die Klassifizierung von Inhalten. Man stelle sich die Inhaltskategorien einer Nachrichtenmedien-Website vor. Alle inhaltlichen Kategorien können anhand der einzelnen Artikel auf der Website in eine thematische Taxonomie eingeordnet werden. Federick Mosteller und David Wallace wird die erste Anwendung der Bayes'schen Inferenz in ihrer Arbeit (der Link befindet sich außerhalb von ibm.com) von 1963 zugeschrieben.
  • Stimmungsanalyse: Die Stimmungsanalyse ist eine weitere Form der Textklassifizierung und wird häufig im Marketing eingesetzt, um Meinungen und Einstellungen zu bestimmten Produkten und Marken besser zu verstehen und zu quantifizieren. 
  • Vorhersage mentaler Zustände: Mithilfe von fMRI-Daten wurde Naive Bayes eingesetzt, um verschiedene kognitive Zustände bei Menschen vorherzusagen. Das Ziel dieser Forschung (Link außerhalb von ibm.com) war es, verborgene kognitive Zustände besser zu verstehen, insbesondere bei Patienten mit Hirnverletzungen.
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen