Modellierung mittels maschinellen Lernens existiert aufgrund von Unsicherheit. Wenn wir Eingaben Ausgaben perfekt zuordnen könnten, bräuchten wir keine Modelle. Aber reale Daten sind chaotisch, unvollständig und verrauscht – deshalb modellieren wir Wahrscheinlichkeiten statt Gewissheiten. Das Lernen über Wahrscheinlichkeiten bildet die Grundlage für maschinelles Lernen und künstliche Intelligenz (KI). Wahrscheinlichkeitstheorien ermöglichen es uns, die Daten, die wir zur Modellierung verwendet haben, zu verstehen. Sie spielen eine entscheidende Rolle bei der Modellierung von Unsicherheiten in den Vorhersagen von ML-Modellen. Sie helfen uns, die Wahrscheinlichkeit, die Plausibilität und die Gewissheiten für ein statistisches Modell zu quantifizieren, sodass wir die von uns erstellten Ergebnismodelle zuverlässig messen können. Das Eintauchen in die Welt der Wahrscheinlichkeiten und das Erlernen der Grundlagen wird Ihnen helfen, die Grundlagen aller statistischen Lernmodelle und deren Vorhersagen zu verstehen. Sie erfahren, wie wir Inferenzen vornehmen und probabilistische Ergebnisse erzielen können.
Um gängige Distributionen zu lernen und Ihre Daten sicher zu modellieren, lassen Sie uns zu den Grundlagen kommen und einige Terminologien klären.
Zufallsvariable: Eine numerische Darstellung des Ergebnisses eines zufälligen Phänomens. Es handelt sich um eine Variable, deren mögliche Werte numerische Ergebnisse eines Zufallsprozesses sind.
Diskrete Zufallsvariable: Eine Zufallsvariable, die eine endliche oder abzählbar unendliche Anzahl von verschiedenen Werten annehmen kann, zum Beispiel das Ergebnis eines Münzwurfs (Kopf = 1, Zahl = 0) oder die Anzahl der in einer Stunde erhaltenen Spam-E-Mails.
Kontinuierliche Zufallsvariable: Eine Zufallsvariable, die einen beliebigen Wert innerhalb eines bestimmten Bereichs annehmen kann. Zum Beispiel die Größe einer Person, die Temperatur in einem Raum oder die Niederschlagsmenge.
Ereignis: Ein oder mehrere Ergebnisse eines Zufallsprozesses, zum Beispiel das Würfeln einer geraden Zahl auf einem Würfel (Ergebnisse: 2, 4, 6) oder die Abwanderung eines Kunden.
Ergebnis: Ein mögliches Ergebnis eines Zufallsexperiments. Wenn Sie beispielsweise eine Münze werfen, erhalten Sie entweder „Kopf“ (Heads) oder „Zahl“ (Tails).
Wahrscheinlichkeit : Ein numerisches Maß für die Wahrscheinlichkeit, dass ein Ereignis eintritt. tritt im Bereich von 0 (unmöglich) bis 1 (sicher) auf.
Bedingte Wahrscheinlichkeit : Die Wahrscheinlichkeit eines Ereignisses , vorausgesetzt, dass Ereignis bereits eingetreten ist. Dieser Schritt ist bei ML von entscheidender Bedeutung, da wir häufig ein Ergebnis anhand bestimmter Merkmale vorhersagen möchten.
Die Wahrscheinlichkeit misst, wie wahrscheinlich es ist, dass ein Ereignis eintreten wird, von 0 (unmöglich) bis 1 (sicher).
Beim maschinellen Lernen geschieht dies oft in Form der bedingten Wahrscheinlichkeit
Beispiel: Ein logistisches Regressionmodell könnte lauten:
> „Bei einem Alter von 45 Jahren, einem Einkommen von 60.000 USD und der bisherigen Kundenhistorie
> liegt die Wahrscheinlichkeit der Abwanderung bei 0,82.“
Dieses Beispiel bedeutet nicht, dass der Kunde abwandern wird – es ist eine Annahme, die auf den statistischen Mustern in den Trainingsdaten basiert.
In der modernen Ära der generativen KI spielen probabilistische Modelle wie die logistische Regression eine große Rolle bei der Bestimmung der Ergebnisse und Ausgaben eines Modells. Diese Rolle besteht häufig in Form einer Aktivierungsfunktion in den Schichten von Neural Networks.