Der naive Bayes-Klassifikator ist ein überwachter Algorithmus für maschinelles Lernen, der für Klassifizierungsaufgaben wie die Textklassifizierung verwendet wird. Er nutzt die Prinzipien der Wahrscheinlichkeit, um Klassifizierungsaufgaben durchzuführen.
Der naive Bayes-Klassifikator gehört zur Familie der generativen Lernalgorithmen. Das bedeutet, dass er versucht, die Verteilung der Eingaben einer bestimmten Klasse oder Kategorie zu modellieren. Im Gegensatz zu diskriminierenden Klassifikatoren, wie der logistischen Regression, lernt er nicht, welche Merkmale für die Unterscheidung zwischen den Klassen am wichtigsten sind.
Naïve Bayes ist auch als probabilistischer Klassifikator bekannt, da er auf dem Bayes'schen Theorem basiert. Es wäre schwierig, diesen Algorithmus zu erklären, ohne auf die Grundlagen der Bayes'schen Statistik einzugehen. Dieses Theorem, das auch als Bayes-Regel bekannt ist, ermöglicht es uns, bedingte Wahrscheinlichkeiten „umzukehren“. Die bedingte Wahrscheinlichkeit gibt die Wahrscheinlichkeit eines Ereignisses wieder, wenn ein anderes Ereignis eingetreten ist. Das wird mit der folgenden Formel dargestellt:
Der Satz von Bayes zeichnet sich durch die Verwendung sequenzieller Ereignisse aus, bei denen später erworbene zusätzliche Informationen die ursprüngliche Wahrscheinlichkeit beeinflussen. Diese Wahrscheinlichkeiten werden als A-priori-Wahrscheinlichkeit und A-posteriori-Wahrscheinlichkeit bezeichnet. Die A-priori-Wahrscheinlichkeit ist die anfängliche Wahrscheinlichkeit eines Ereignisses, bevor es unter bestimmten Bedingungen kontextualisiert wird, oder die Randwahrscheinlichkeit. Die Posterior-Wahrscheinlichkeit ist die Wahrscheinlichkeit eines Ereignisses nach der Beobachtung eines Datenelements.
Ein beliebtes Beispiel in der Literatur zu Statistik und maschinellem Lernen (Link führt zu Seite außerhalb von ibm.com) für dieses Konzept sind medizinische Tests. Es gibt zum Beispiel eine Person namens Jane, die einen Test macht, um festzustellen, ob sie an Diabetes leidet. Nehmen wir an, dass die Gesamtwahrscheinlichkeit, an Diabetes zu erkranken, 5 % beträgt. Das wäre unsere A-priori-Wahrscheinlichkeit. Wenn sie jedoch bei ihrem Test ein positives Ergebnis erzielt, wird die vorherige Wahrscheinlichkeit aktualisiert, um diese zusätzlichen Informationen zu berücksichtigen. Das wird dann zu unserer A-posteriori-Wahrscheinlichkeit. Dieses Beispiel kann mit der folgenden Gleichung dargestellt werden, wobei der Satz von Bayes verwendet wird:
Da unser Wissen über A-priori-Wahrscheinlichkeiten angesichts anderer Variablen (z. B. Ernährung, Alter, Familiengeschichte usw.) jedoch nicht exakt sein dürfte, nutzen wir in der Regel Wahrscheinlichkeitsverteilungen aus Zufallsstichproben und vereinfachen die Gleichung zu P(Y|X) = P(X|Y)P(Y) / P(X)
Naive Bayes-Klassifikatoren funktionieren anders, da sie unter einer Reihe von Grundannahmen arbeiten, was ihnen den Zusatz „naiv“ einbrachte. Es wird davon ausgegangen, dass die Prädiktoren in einem naiven Bayes-Modell bedingt unabhängig sind, d. h. in keinem Zusammenhang mit den anderen Merkmalen des Modells stehen. Außerdem wird angenommen, dass alle Merkmale gleichermaßen zum Ergebnis beitragen. Diese Annahmen werden zwar in der Praxis oft verletzt (z. B. hängt ein nachfolgendes Wort in einer E-Mail von dem Wort ab, das ihm vorausgeht), aber sie vereinfachen ein Klassifizierungsproblem, indem sie es rechnerisch überschaubarer machen. Das heißt, dass für jede Variable nur noch eine einzige Wahrscheinlichkeit benötigt wird, was wiederum die Modellberechnung erleichtert. Trotz dieser unrealistischen Unabhängigkeitsannahme schneidet der Klassifizierungsalgorithmus gut ab, insbesondere bei kleinen Stichprobengrößen.
Mit dieser Annahme im Hinterkopf können wir jetzt die Teile eines Naïve-Bayes-Klassifikators genauer untersuchen. Ähnlich wie beim Theorem von Bayes verwendet es bedingte und vorherige Wahrscheinlichkeiten, um die späteren Wahrscheinlichkeiten mit der folgenden Formel zu berechnen:
Stellen wir uns nun einen Anwendungsfall zur Textklassifizierung vor, um zu veranschaulichen, wie der naive Bayes-Algorithmus funktioniert. Stellen Sie sich einen E-Mail-Anbieter vor, der seinen Spam-Filter verbessern möchte. Die Trainingsdaten bestehen aus Wörtern aus E-Mails, die entweder als „Spam“ oder als „kein Spam“ klassifiziert wurden. Von dort aus werden die bedingten Wahrscheinlichkeiten der Klassen und die vorherigen Wahrscheinlichkeiten berechnet, um die nachträgliche Wahrscheinlichkeit zu erhalten. Der naive Bayes-Klassifikator gibt die Klasse zurück, welche die größte A-posteriori-Wahrscheinlichkeit aus einer Gruppe von Klassen (d. h. „Spam“ oder „kein Spam“) für eine bestimmte E-Mail hat. Diese Berechnung wird mit der folgenden Formel dargestellt:
Da sich jede Klasse auf dasselbe Textelement bezieht, können wir den Nenner aus dieser Gleichung eliminieren und sie zu folgender Formel vereinfachen:
Die Genauigkeit des Lernalgorithmus wird anhand der Leistung des Testdatensatzes bewertet, der auf dem Trainingsdatensatz basiert.
Um dies etwas zu verdeutlichen, gehen wir eine Ebene tiefer zu den einzelnen Teilen, aus denen sich diese Formel zusammensetzt. Die klassenbedingten Wahrscheinlichkeiten sind die individuellen Wahrscheinlichkeiten für jedes Wort in einer E-Mail. Diese werden berechnet, indem die Häufigkeit jedes Wortes für jede Kategorie (also „Spam“ oder „kein Spam“) bestimmt wird, was auch als Maximum-Likelihood-Schätzung (MLE) bekannt ist. Wenn wir in diesem Beispiel die Phrase „Sehr geehrter Herr“ untersuchen würden, würden wir einfach berechnen, wie oft diese Wörter in allen Spam- und Nicht-Spam-E-Mails vorkommen. Dies kann durch die folgende Formel dargestellt werden, wobei y für „Sehr geehrter Herr“ und x für „Spam“ steht.
A-priori-Wahrscheinlichkeiten sind genau das, was wir zuvor mit der Bayes-Theorie beschrieben haben. Auf der Grundlage des Trainingssatzes können wir die Gesamtwahrscheinlichkeit berechnen, dass eine E-Mail „Spam“ oder „kein Spam“ ist. Die A-priori-Wahrscheinlichkeit für die Klassenbezeichnung „Spam“ wird in der folgenden Formel dargestellt:
Die A-priori-Wahrscheinlichkeit dient als „Gewicht“ für die klassenbedingte Wahrscheinlichkeit, wenn die beiden Werte miteinander multipliziert werden, was die einzelnen A-posteriori-Wahrscheinlichkeiten ergibt. Von dort aus wird die maximale A- posteriori-Schätzung (MAP) berechnet, um die Klasse entweder als Spam oder als Nicht-Spam zu kennzeichnen. Die endgültige Gleichung für die naive Bayes-Gleichung kann folgendermaßen dargestellt werden:
Alternativ kann es auch im Log-Raum dargestellt werden, da naive Bayes-Klassifikatoren üblicherweise in dieser Form verwendet werden:
Eine Möglichkeit zur Bewertung Ihres Klassifikators besteht in der Darstellung einer Konfusionsmatrix, in der die tatsächlichen und die vorhergesagten Werte in einer Matrix dargestellt werden. Die Zeilen stellen im Allgemeinen die tatsächlichen Werte dar, während die Spalten die vorhergesagten Werte repräsentieren. In vielen Handbüchern wird diese Abbildung als 2 x 2-Diagramm dargestellt, wie zum Beispiel im Folgenden:
Wenn Sie jedoch Bilder von Null bis 9 vorhersagen würden, hätten Sie ein 10 x 10 Diagramm. Wenn Sie wissen möchten, wie oft der Klassifikator Bilder mit 4en mit 9en „verwechselt“ hat, brauchen Sie nur die Zeile 4 und die Spalte 9 zu überprüfen.
Es gibt nicht nur einen naiven Typ naiver Bayes-Klassifikatoren. Die gängigsten Typen unterscheiden sich durch die Verteilung der Merkmalswerte. Einige davon sind:
All dies kann über die Python-Bibliothek Scikit Learn (Link befindet sich außerhalb von ibm.com) implementiert werden (auch Sklearn genannt).
Zusammen mit einer Reihe anderer Algorithmen gehört der naive Bayes-Klassifikator zu einer Familie von Data-Mining-Algorithmen, die große Datenmengen in nützliche Informationen verwandeln. Einige Anwendungen des Naive Bayes umfassen:
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.