Was ist statistisches maschinelles Lernen?

Autoren

Developer Advocate

IBM

Statistisches maschinelles Lernen

Einführung: Was ist statistisches Denken beim maschinellen Lernen?

In der modernen Ära der generativen KI erleben wir, wie Anwender ML-Modelle (maschinelles Lernen) von einfachen linearen Regressionen bis hin zu komplexen, anspruchsvollen Neural Networks und generativen Large Language Models (LLMs) erstellen. Außerdem sind Data Science und Datenanalysen zur Vorhersage von Kundenabwanderung, Empfehlungssystemen und anderen Anwendungsfällen allgegenwärtig. Auch wenn ML-Modelle so aussehen mögen, als würden sie auf riesigen Datensätzen und leistungsstarken Algorithmen basieren, sind sie unter der Oberfläche im Grunde genommen ein statistischer Prozess.

Maschinelles Lernen basiert auf statistischen Techniken und mathematischen Werkzeugen (einschließlich Bayes-Methoden, linearer Algebra und Validierungsstrategien), die dem Prozess Struktur und Strenge verleihen. Ganz gleich, ob Sie einen nichtlinearen Klassifikator erstellen, ein Empfehlungssystem abstimmen oder ein generatives Modell in Python entwickeln, Sie wenden die Kernprinzipien des statistischen maschinellen Lernens an.

Wenn Sie ein Modell trainieren, schätzen Sie Parameter anhand von Daten. Wenn Sie es testen, fragen Sie sich: Ist dieses Muster echt oder ist es nur ein zufälliges Rauschen? Wie können wir Fehler mithilfe von Metriken quantifizieren? Das sind statistische Fragen. Der Prozess des statistischen Testens hilft uns, Vertrauen in die Erstellung und Interpretation von Modellmetriken zu stärken. Das Verständnis dieser Voraussetzungen ist nicht nur grundlegend – es ist unerlässlich für die Entwicklung robuster und interpretierbarer KI-Systeme, die auf Informatik und mathematischem Reasoning beruhen.

In diesem Artikel werden die statistischen Grundpfeiler des modernen maschinellen Lernens erläutert. Dabei geht es nicht nur darum, die Mathematik zu entmystifizieren, sondern auch darum, Ihnen die mentalen Modelle an die Hand zu geben, die Sie benötigen, um ML-Systeme sicher zu erstellen, zu debuggen und zu interpretieren.

Wir werden sechs miteinander verknüpfte Konzepte durchgehen:

1. Statistiken: Was sind Statistiken und wie werden sie in der modernen KI verwendet?

2. Wahrscheinlichkeit: Wie quantifizieren wir die Daten-Unsicherheiten?

3. Verteilungen: Wie lassen sich Datenverhalten modellieren?

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Was ist Statistik

Statistik ist die Wissenschaft von der Gewinnung von Erkenntnissen aus Daten. Sie organisiert, analysiert und interpretiert Informationen, um Muster zu erkennen und bei Unsicherheit Entscheidungen zu treffen. Im Kontext von Data Science und ML-Algorithmen liefert Statistik die mathematische Grundlage, um das Datenverhalten zu verstehen, Modellentscheidungen zu treffen und Ergebnisse zu bewerten. Sie verwandelt chaotische, verrauschte Datensätze in umsetzbare Informationen.

Modernes maschinelles Lernen baut auf statistischen Methoden auf. Unabhängig davon, ob Sie überwachtes Lernen (z. B. Regression oder Klassifizierung), unüberwachtes Lernen (z. B. Cluster) oder verstärkendes Lernen anwenden, verwenden Sie Tools, die auf statistischer Inferenz basieren. Statistiken ermöglichen es uns, Unsicherheiten zu quantifizieren, anhand von Stichproben zu verallgemeinern und Schlüsse über breitere Bevölkerungsgruppen zu ziehen – alles unerlässlich für den Aufbau vertrauenswürdiger Systeme für künstliche Intelligenz (KI).

Deskriptive Statistik: Die Grundlagen verstehen

Bevor wir Modelle trainieren, führen wir eine explorative Datenanalyse (EDA) durch – einen Prozess, der sich auf deskriptive Statistiken stützt, um die wichtigsten Merkmale der Daten zusammenzufassen. Diese Zusammenfassungen informieren uns über die zentrale Tendenz und Variabilität jeder Funktion und helfen dabei, Sonderfälle, Probleme mit der Datenqualität und Vorverarbeitungsbedarf zu identifizieren. Das Verständnis dieser Eigenschaften ist eine Voraussetzung für die Erstellung effektiver Modelle und die Auswahl geeigneter ML-Algorithmen.

Wichtigste Maßnahmen:

Mittelwert (Durchschnitt):

Der arithmetische Mittelwert. Häufig bei der Messung von Zentralität und bei Verlustfunktionen wie dem mittleren quadratischen Fehler (Mean Squared Error, MSE).

Beispiel: Wenn der Kaufwert von Kunden steigt, werden durch den Mittelwert Veränderungen im Verhalten erkannt.

Median:

Der mittlere Wert, wenn Daten sortiert werden. Robuster gegenüber Ausreißern als der Mittelwert.

Beispiel: Bei Einkommensdaten spiegelt der Median einen „typischen“ Fall bei ungleicher Vermögensverteilung besser wider.

Modus:

Der am häufigsten vorkommende Wert. Nützlich für Funktionen oder Mehrheitsabstimmung (wie bei einigen Ensemble-Methoden).

Beispiel: Suche nach dem am häufigsten von Website-Besuchern verwendeten Browser.

Standardabweichung (SD):

Misst, wie weit die Werte vom Mittelwert entfernt sind. Eine niedrige SD bedeutet, dass die Datenpunkte nahe am Mittelwert gruppiert sind, während eine hohe SD auf eine größere Variabilität hinweist.

Beispiel: Bei der Modellvalidierung muss eine Funktion mit hoher Varianz möglicherweise normalisiert werden, um zu vermeiden, dass andere in distanzbasierten Algorithmen wie K-Nearest-Neighbors überlastet werden.

Interquartilsabstand (IQR):

Der Bereich zwischen dem 75. und 25. Perzentil (Q3 – Q1). Sie erfasst die mittleren 50 % der Daten und ist für die Erkennung von Sonderfällen nützlich.

Beispiel: Bei einer Kundensegmentierungsaufgabe kann ein hoher IQR bei den Ausgaben auf ein inkonsistentes Verhalten aller Untergruppen hinweisen.

Schiefe:

Gibt die Asymmetrie einer Verteilung an. Eine positive Schiefe bedeutet einen längeren rechten Schwanz, während eine negative Schiefe einen längeren linken Schwanz bedeutet. Schiefe Merkmale können die Annahmen linearer Modelle verletzen oder auf dem Mittelwert basierende Metriken überhöhen.

Beispiel: Rechtsschiefe Verteilungen (wie Einkommen) erfordern möglicherweise eine Log-Transformation vor der Anwendung der linearen Regression.

Kurtosis:

Beschreibt die „Schiefe“ der Verteilung, d. h. wie wahrscheinlich Extremwerte sind. Eine hohe Wölbung bedeutet häufigere Sonderfälle, während eine niedrige Wölbung eine flachere Verteilung bedeutet.

Beispiel: Bei der Betrugserkennung kann eine hohe Kurtosis der Transaktionsbeträge auf abnormale Ausgabenmuster hinweisen.

Diese Maßnahmen dienen auch als Leitfaden für vorläufige Verarbeitungsentscheidungen wie Normalisierung, Standardisierung oder Imputation und beeinflussen die Art und Weise, wie wir neue Funktionen entwickeln.

Deskriptive Statistik beim maschinellen Lernen

Bei der EDA helfen uns deskriptive Statistiken:

Beurteilen Sie die Datenverteilungen: Sind die Variablen normalverteilt? Schief verteilt? Multimodal?
Identifizieren Sie Ausreißer und Fehler: Eine Abweichung zwischen Mittelwert und Median kann auf ungewöhnliche Werte hinweisen.
Entdecken Sie Probleme bei der Datenqualität: Zum Beispiel die Erkennung negativer Altersangaben oder unmöglicher Kategorien.
Hilfe bei der Modellauswahl: Eine kontinuierliche Zielvariable deutet auf eine Regression hin, also eine kategorische Klassifizierung. Beziehungen zwischen Funktionen (z. B. Korrelation) können sich auch darauf auswirken, ob lineare, nichtparametrische oder kernelbasierte Methoden verwendet werden sollen.

Das Verstehen von Daten mithilfe von Statistiken hilft auch dabei, Modelle für die Verarbeitung großer Datensätze vorzubereiten, Metriken auszuwerten und Risiken wie Überanpassung zu mindern. Deskriptive Zusammenfassungen können beispielsweise unausgewogene Klassen oder Funktionskalen aufdecken, die normalisiert werden müssen – beides beeinträchtigt die Leistung und Fairness des Modells.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Wahrscheinlichkeiten: Die Sprache der Unsicherheiten

Modellierung mittels maschinellen Lernens existiert aufgrund von Unsicherheit. Wenn wir Eingaben Ausgaben perfekt zuordnen könnten, bräuchten wir keine Modelle. Aber reale Daten sind chaotisch, unvollständig und verrauscht – deshalb modellieren wir Wahrscheinlichkeiten statt Gewissheiten. Das Lernen über Wahrscheinlichkeiten bildet die Grundlage für maschinelles Lernen und künstliche Intelligenz (KI). Wahrscheinlichkeitstheorien ermöglichen es uns, die Daten, die wir zur Modellierung verwendet haben, zu verstehen. Sie spielen eine entscheidende Rolle bei der Modellierung von Unsicherheiten in den Vorhersagen von ML-Modellen. Sie helfen uns, die Wahrscheinlichkeit, die Plausibilität und die Gewissheiten für ein statistisches Modell zu quantifizieren, sodass wir die von uns erstellten Ergebnismodelle zuverlässig messen können. Das Eintauchen in die Welt der Wahrscheinlichkeiten und das Erlernen der Grundlagen wird Ihnen helfen, die Grundlagen aller statistischen Lernmodelle und deren Vorhersagen zu verstehen. Sie erfahren, wie wir Inferenzen vornehmen und probabilistische Ergebnisse erzielen können.

Um gängige Distributionen zu lernen und Ihre Daten sicher zu modellieren, lassen Sie uns zu den Grundlagen kommen und einige Terminologien klären.

Zufallsvariable: Eine numerische Darstellung des Ergebnisses eines zufälligen Phänomens. Es handelt sich um eine Variable, deren mögliche Werte numerische Ergebnisse eines Zufallsprozesses sind.

Diskrete Zufallsvariable: Eine Zufallsvariable, die eine endliche oder abzählbar unendliche Anzahl von verschiedenen Werten annehmen kann, zum Beispiel das Ergebnis eines Münzwurfs (Kopf = 1, Zahl = 0) oder die Anzahl der in einer Stunde erhaltenen Spam-E-Mails.

Kontinuierliche Zufallsvariable: Eine Zufallsvariable, die einen beliebigen Wert innerhalb eines bestimmten Bereichs annehmen kann. Zum Beispiel die Größe einer Person, die Temperatur in einem Raum oder die Niederschlagsmenge.

Ereignis: Ein oder mehrere Ergebnisse eines Zufallsprozesses, zum Beispiel das Würfeln einer geraden Zahl auf einem Würfel (Ergebnisse: 2, 4, 6) oder die Abwanderung eines Kunden.

Ergebnis: Ein mögliches Ergebnis eines Zufallsexperiments. Wenn Sie beispielsweise eine Münze werfen, erhalten Sie entweder „Kopf“ (Heads) oder „Zahl“ (Tails).

Wahrscheinlichkeit $P (A)$ : Ein numerisches Maß für die Wahrscheinlichkeit, dass ein Ereignis eintritt. $A$ tritt im Bereich von 0 (unmöglich) bis 1 (sicher) auf.

Bedingte Wahrscheinlichkeit $P (A | B)$ : Die Wahrscheinlichkeit eines Ereignisses $A$ , vorausgesetzt, dass Ereignis $A$ bereits eingetreten ist. Dieser Schritt ist bei ML von entscheidender Bedeutung, da wir häufig ein Ergebnis anhand bestimmter Merkmale vorhersagen möchten.

Die Wahrscheinlichkeit misst, wie wahrscheinlich es ist, dass ein Ereignis eintreten wird, von 0 (unmöglich) bis 1 (sicher).

Beim maschinellen Lernen geschieht dies oft in Form der bedingten Wahrscheinlichkeit

Beispiel: Ein logistisches Regressionmodell könnte lauten:

> „Bei einem Alter von 45 Jahren, einem Einkommen von 60.000 USD und der bisherigen Kundenhistorie

> liegt die Wahrscheinlichkeit der Abwanderung bei 0,82.“

Dieses Beispiel bedeutet nicht, dass der Kunde abwandern wird – es ist eine Annahme, die auf den statistischen Mustern in den Trainingsdaten basiert.

In der modernen Ära der generativen KI spielen probabilistische Modelle wie die logistische Regression eine große Rolle bei der Bestimmung der Ergebnisse und Ausgaben eines Modells. Diese Rolle besteht häufig in Form einer Aktivierungsfunktion in den Schichten von Neural Networks.

Verteilungen: Modellierung des Verhaltens von Daten

Eine Wahrscheinlichkeitsverteilung ist eine mathematische Funktion, die mögliche Werte und Wahrscheinlichkeiten beschreibt, die eine Zufallsvariable innerhalb eines bestimmten Bereichs annehmen kann. Das Verständnis von Verteilungen ist für ML von entscheidender Bedeutung, da Daten selten als einzelne, isolierte Punkte vorliegen. Sie hat eine Struktur und eine „Form“. Einige Terminologien, auf die wir näher eingehen müssen, sind:

Diskrete Verteilung: Gilt für Variablen, die verschiedene, zählbare Werte annehmen (z. B. Münzwurf, Wortanzahl).
Kontinuierliche Verteilung: Gilt für Variablen, die innerhalb eines Bereichs einen beliebigen Wert annehmen können (z. B. Größe, Gewicht, Zeit).

Kernkonzepte

Wahrscheinlichkeitsmassenfunktion (PMF): Die PMF gilt für diskrete Zufallsvariablen – Variablen, die zählbare, eindeutige Werte annehmen wie 0 oder 1, Kopf oder Zahl oder die Anzahl der Kunden, die in ein Geschäft kommen. Die PMF nennt Ihnen die genaue Wahrscheinlichkeit jedes möglichen Ergebnisses. Wenn Sie beispielsweise einen fairen sechsseitigen Würfel werfen, weist die PMF jedem der Ergebnisse 1, 2, 3, 4, 5, 6 eine Wahrscheinlichkeit von 1/6 zu. $1, 2, 3, 4, 5, 6$ . Im Gegensatz zur PDF (die die Wahrscheinlichkeitsdichte über einen Bereich verteilt) konzentriert sich die PMF auf exakte Werte.
Wahrscheinlichkeitsdichtefunktion (PDF): Sie hilft uns in Bezug auf Perzentile, Quantile und Wahrscheinlichkeitsschwellen – Konzepte, die häufig bei Schwellenwertmodellen, Fairness-Auditing und Interpretierbarkeit verwendet werden.
Kumulative Verteilungsfunktion (CDF): Die CDF gibt die kumulative Wahrscheinlichkeit an, dass ein Wert kleiner als oder gleich einem bestimmten Schwellenwert ist. Sie wächst von 0 auf 1, wenn Sie sich entlang der X-Achse verschieben, und ist besonders nützlich bei der Beantwortung von Fragen wie: „Welchen Anteil der Kunden geben weniger als 50 USD aus?“
Kumulative Massenfunktion (CMF): Die CMF ist das diskrete Gegenstück zur CDF. Sie gibt die kumulative Wahrscheinlichkeit an, dass eine diskrete Variable einen Wert annimmt, der kleiner als oder gleich einem bestimmten Punkt ist.

Es ist entscheidend, die richtigen Annahmen über die Verteilung Ihrer Daten zu treffen – viele Algorithmen des maschinellen Lernens stützen sich sowohl bei der Modellauswahl als auch bei der Interpretation auf diese Annahmen. Falsche Annahmen können zu voreingenommenen Schätzungen, falsch ausgerichteten Verlustfunktionen und letztlich zu einer schlechten Generalisierung oder ungültigen Schlussfolgerungen in realen Anwendungen führen.

Wahrscheinlichkeitsverteilungen untermauern:

Fehlermodellierung: Annahmen über Restwerte in der Regression (oft gaußverteilt).
Verlustfunktionen: MSE entspricht Gaußschen Annahmen; Kreuzentropie entspricht Bernoullischen oder logistischen Annahmen.
Modelldesign: Klassifizierungsziele werden häufig durch Bernoulli modelliert; latente Variablen in tiefen generativen Modellen verwenden Gaußsche Prioritäten.
Generative KI: Das Sampling aus gelernten hochdimensionalen Verteilungen ist für Modelle wie generative gegnerische Netzwerke (GANs) und VAEs von grundlegender Bedeutung.

Beispiel für diskrete Verteilung: Bernoulli-Versuche

Die Bernoulli-Verteilung modelliert die Wahrscheinlichkeit von Erfolg oder Misserfolg bei einem einzelnen Versuch mit einem diskreten Zufallsereignis. Das heißt, es gibt nur zwei Ergebnisse: 1 (Erfolg) oder 0 (Fehler). Es ist die einfachste Art der Verteilung, die in der Statistik verwendet wird, aber sie bildet die Grundlage für viele Klassifikationsprobleme beim maschinellen Lernen. Wenn Sie beispielsweise 10 Mal eine Münze werfen und 7 Kopf (Erfolg) und 3 Zahl (Misserfolg) erhalten, kann die Wahrscheinlichkeitsmassenfunktion (PMF) wie folgt dargestellt werden:

Ein Münzwurf ist ein klassischer Bernoulli-Versuch. Wenden wir die Wahrscheinlichkeitsmassenfunktion auf das Münzwurfbeispiel an:

- Nehmen wir $X$ als Zufallsvariable, die das Ergebnis eines Wurfs darstellt

– Wenn Heads als Erfolg gewichtet wird, definieren wir $X = 1$ für Kopf und $X = 0$ Tails

– Wenn die Münze fair ist, ist die Wahrscheinlichkeit für Kopf $p = 0.5$

Die Wahrscheinlichkeitsmassenfunktion (PMF) der Bernoulli-Verteilung ist:

$P (X = x) = p^{x} (1 - p)^{1 - x}, f o r x \in {0, 1}$

Bernoulli-Verteilung – Lollipop-Diagramm

Wo gilt:

p ist die Erfolgswahrscheinlichkeit (X=1)
1 - p ist die Wahrscheinlichkeit des Scheiterns (X=0)
x ist das beobachtete Ergebnis (1 oder 0)

Anwendung auf maschinelles Lernen: diskrete Verteilung

Das Verständnis der Bernoulli PMF ist wichtig, da sie das probabilistische Rückgrat vieler Klassifizierungsmodelle bildet. Insbesondere gibt die logistische Regression nicht nur eine Klassenbezeichnung aus, sie schätzt die Wahrscheinlichkeit, dass eine bestimmte Eingabe zur Klasse 1 gehört. Diese vorhergesagte Wahrscheinlichkeit wird als Parameter 𝑝 in einer Bernoulli-Verteilung interpretiert:

Die bei der logistischen Regression verwendete logistische Funktion (Sigmoid) stellt sicher, dass die vorhergesagten Werte in den Bereich [0,1] fallen, was sie zu gültigen Bernoulli-Wahrscheinlichkeiten macht. Das Modell wird darauf trainiert, die Wahrscheinlichkeit der Beobachtung der wahren binären Ergebnisse zu maximieren, unter der Annahme, dass jeder Zielwert aus einer Bernoulli-Verteilung mit der Wahrscheinlichkeit 𝑝 gezogen wird, die aus den Merkmalen 𝑋 vorhergesagt wird. In diesem Fall möchten wir den Trainingsverlust minimieren und verwenden daher einen Maximum-Likelihood-Schätzer (MLE), um die Wahrscheinlichkeit eines Ergebnisses unter Berücksichtigung der Daten zu maximieren. Typischerweise wandeln wir bei diskreten Verteilungen wie Bernoulli Plausibilität in Wahrscheinlichkeit um, um sie leichter zu manipulieren. Da die Wahrscheinlichkeit, ähnlich wie die Chancen, unverhältnismäßig ist, wenden wir üblicherweise eine Log-Transformation an – die sogenannte Log-Likelihood – und verwenden als Verlustfunktion den Log-Verlust. Sollte Sie dieser Abschnitt verwirren, sehen Sie sich die zuvor erwähnte Erläuterung zur logistischen Regression an, um die Log-Likelihood-Funktion mit MLE Schritt für Schritt herzuleiten. Dieser Zusammenhang liefert die statistische Grundlage dafür, Ausgaben als Wahrscheinlichkeitsschätzungen zu interpretieren. Weitere Anwendungen sind:

Binäre Klassifikatoren (Entscheidungsbaum, Random Forests, Support-Vektor-Maschinen mit binären Ergebnissen) behandeln die Klassifizierung implizit als Vorhersage von Bernoulli-Ergebnissen – insbesondere, wenn nach dem Training die Wahrscheinlichkeitskalibrierung angewendet wird.
Bewertungsmetriken: Präzision, Recall und F1 Score leiten sich im Wesentlichen von der Annahme ab, dass jede Vorhersage ein binäres Ereignis ist (Bernoulli-Experiment).

Beispiel für kontinuierliche Verteilung: Gaußsche (Normal-)Verteilung

Die Normalverteilung beschreibt eine kontinuierliche Zufallsvariable, deren Werte sich tendenziell um einen zentralen Mittelwert Cluster, mit symmetrischer Variabilität in beide Richtungen. Sie ist in der Statistik allgegenwärtig, weil viele natürliche Phänomene (Höhe, Testergebnisse, Messfehler) diesem Muster folgen, insbesondere wenn sie über mehrere Stichproben hinweg aggregiert werden.

Stellen Sie sich vor, Sie erfassen die Körpergröße von 1.000 Erwachsenen. Die Darstellung dieser Daten zeigt eine glockenförmige Kurve: Menschen liegen nahe am Durchschnitt, während sich nur wenige an den Extremen befinden. Diese Form wird durch die Wahrscheinlichkeitsdichtefunktion (PDF) der Normalverteilung erfasst:

$f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})$

Wo gilt:

𝑥 ist eine kontinuierliche Variable (z. B. die Größe)
𝜇 ist der Mittelwert (Mittelpunkt der Verteilung)
$σ^{2}$ die Varianz (kontrolliert die Streuung)
Der Nenner $\sqrt{2 π σ^{2}}$ stellt sicher, dass die Fläche unter der Kurve 1 ergibt
Der Exponentialterm benachteiligt Werte, die weit vom Mittelwert entfernt sind, wodurch sie weniger wahrscheinlich werden

Anwendungen auf maschinelles Lernen: kontinuierlicher Vertrieb

Lineare Regression: geht davon aus, dass die Restwerte (Fehler) normal verteilt sind, was die Verwendung des mittleren quadratischen Fehlers (Mean Squared Error, MSE) als Verlustfunktion rechtfertigt. Diese Annahme ermöglicht es den Modellen, probabilistische Interpretationen vorzunehmen und erleichtert die statistische Schlussfolgerung (z. B. Konfidenzintervalle, Hypothesentests anhand von Koeffizienten).
Generative Modelle: Variationale Autoencoder (VAEs), GANs und andere generative Modelle gehen oft davon aus, dass die latenten Variablen einer Standardnormalverteilung folgen. Neue Daten werden generiert, indem Stichproben aus diesem Raum entnommen und durch erlernte Netzwerke transformiert werden.
Regularisierung: Techniken wie die L2-Regularisierung (auch bekannt als Ridge-Regression) bestrafen große Modellgewichtungen, indem sie der Verlustfunktion einen Term hinzufügen, der proportional zum Quadrat der Gewichtungen ist. Dieser Strafterm entspricht der Annahme einer Gaußschen Prior-Verteilung über die Modellparameter – in Bayes'schen Begriffen ist es so, als ob wir davon ausgehen, dass die Gewichte aus einer Normalverteilung mit Mittelwert Null stammen. Dieses Prinzip macht die Regularisierung zu einem auf Wahrscheinlichkeitsrechnung basierenden Optimierungsproblem, was einfachere Modelle fördert und Überanpassung reduziert.

Zusammenfassung

Der Kern jedes maschinellen Lernsystems ist ein statistisches Rückgrat, ein unsichtbares Gerüst, das alles unterstützt, vom Modelldesign bis zur Interpretation. Wir haben zunächst untersucht, was Statistik wirklich ist: nicht nur ein Zweig der Mathematik, sondern eine Sprache, um Unsicherheiten zu verstehen und die Bedeutung von Daten zu extrahieren. Deskriptive Statistiken sind der erste Ansatz, mit dem wir die Komplexität der Welt untersuchen und zusammenfassen. Sie schaffen Klarheit, bevor die Modellierung überhaupt beginnt.

Als Nächstes beschäftigen wir uns mit der Wahrscheinlichkeitstheorie, dem formalen Werkzeugset für das Denken bei Unsicherheit. Im maschinellen Lernen helfen uns Wahrscheinlichkeiten dabei, die Wahrscheinlichkeit eines Ergebnisses zu quantifizieren, sodass Modelle nicht nur genaue Vorhersagen treffen, sondern auch deren Zuverlässigkeit ausdrücken können. Ganz gleich, ob es um die Wahrscheinlichkeit einer Abwanderung von Kunden oder um die Wahrscheinlichkeit einer Kennzeichnung in der Klassifizierung geht, die Wahrscheinlichkeitstheorie verwandelt Rohdaten in interpretierbare Erkenntnisse.

Schließlich haben wir Verteilungen erkundet, die definieren, wie sich Daten in verschiedenen Szenarien verhalten. Von der diskreten Bernoulli-Verteilung zur Modellierung der binären Ergebnisse bis hin zur kontinuierlichen Gaußschen Verteilung, die unsere Annahmen in Regression und generativen Modellen beeinflusst – das Verständnis dieser Verteilungen ist von entscheidender Bedeutung. Sie untermauern sowohl die Daten, die wir beobachten, als auch die Algorithmen, die wir erstellen. Sie leiten die Modellauswahl, formen Verlustfunktionen und ermöglichen eine aussagekräftige Inferenz.

In modernen Algorithmen des maschinellen Lernens, von der logistischen Regression und Naive Bayes bis hin zu Deep Learning und Kernel-Methoden, sind diese statistischen Prinzipien keine optionalen Add-ons, sondern die Mechaniken des maschinellen Lernens. Sie helfen uns, mit Unsicherheiten umzugehen, die Leistung zu optimieren und von begrenzten Beobachtungen zur realen Entscheidungsfindung zu verallgemeinern. Wenn Sie sich diese Grundlagen aneignen, lernen Sie nicht nur, maschinelles Lernen zu nutzen, sondern auch, es zu verstehen, aufzubauen und daraus Schlüsse zu ziehen.

Auch im Zeitalter der generativen KI und der groß angelegten Deep Learning-Modelle bleiben Statistiken relevanter denn je. Hinter jeder Transformator-Schicht und jedem Diffusionsschritt verbirgt sich ein Fundament, das auf Wahrscheinlichkeiten, Schätzungen und Verteilungsannahmen beruht. Konzepte wie Verzerrung-Varianz-Kompromiss und Unsicherheit zu verstehen ist nicht nur akademisch – es ist unerlässlich für die Interpretation von Blackbox-Modellen, die Diagnose von Fehlerursachen und die Entwicklung verantwortungsvoller, erklärbarer KI. Ganz gleich, ob Sie ein Foundation Model optimieren, Bayes'sche Techniken zur Quantifizierung von Unsicherheiten anwenden oder generative Outputs bewerten: Das statistische Denken gibt Ihnen die Werkzeuge an die Hand, um die Komplexität mit Klarheit zu meistern. In dem Maße, wie generative KI-Systeme immer leistungsfähiger werden, stellt die Vermittlung statistischer Grundlagen sicher, dass Ihre Modelle nicht nur auf dem neuesten Stand der Technik bleiben, sondern auch prinzipiell und vertrauenswürdig bleiben.

Data Science und MLOps für Data Leader

Schließen Sie sich mit anderen Führungskräften zusammen, um die drei wesentlichen Säulen von MLOps und vertrauenswürdiger KI voranzutreiben: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.

Ressourcen

Zu mehr ML-Know-how

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Maschinelles Lernen erklärt

„Techsplainers“ von IBM erklärt die Grundlagen des maschinellen Lernens – von Schlüsselkonzepten bis hin zu realen Anwendungsfällen. Klare, kurze Folgen helfen Ihnen, die Grundlagen schnell zu erlernen.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen