Was ist ein Gaußsches Mischungsmodell?

Autor

Data Scientist

Gaußsche Mischungsmodelle, definiert

Ein Gaußsches Mischungsmodell (GMM) ist ein probabilistisches Modell, das Daten als eine Kombination mehrerer Gaußscher Verteilungen mit jeweils eigenem Mittelwert und eigener Varianz, gewichtet mit einem Mischungskoeffizienten, darstellt. GMMs werden häufig zur Clusterbildung und Dichteschätzung verwendet, da sie komplexe, multimodale Verteilungen erfassen können, bei denen sich die Datenpunkte natürlich um verschiedene Zentren statt um einen einzigen Mittelwert gruppieren können.

Eine einzelne Gaußsche Verteilung, auch „Normalverteilung“ genannt, beschreibt viele Arten von Naturphänomenen. Die Verteilung der Körpergröße der Schüler in einem Klassenzimmer, des Gewichts von Neugeborenen und der Haltbarkeit mechanischer Teile sind oft Gaußsche Verteilungen.

Eine einzelne Gaußsche Verteilung eignet sich jedoch nicht für die Modellierung von Datensätzen mit mehreren Clustern oder von solchen mit einer erheblichen Schiefe oder starken Randbereichen. In diesen Fällen kann ein GMM besser geeignet sein.

Ein GMM verwendet unbeaufsichtigtes Lernen, um ein probabilistisches Modell zu generieren, das davon ausgeht, dass Daten aus einer Kombination mehrerer Gauß-Verteilungen generiert werden. Anstatt davon auszugehen, dass alle Daten aus einer einzigen Normalverteilung (einem Gaußschen Modell) stammen, geht ein GMM davon aus, dass es mehrere Normalverteilungen gibt, die jeweils einen anderen „Cluster“ oder eine andere „Teilpopulation“ im Datensatz darstellen und von denen jede ihren eigenen Mittelwert und ihre eigene Varianz aufweist.

Im Falle von Schülern können Sie sich Höhen mit einer bimodalen Verteilung vorstellen, wobei die Geschlechtsidentität der Schüler nicht bekannt ist. Im Falle von Maschinenteilen stellen Sie sich vor, dass die Teile von zwei verschiedenen Lieferanten stammen, von denen einer qualitativ hochwertigere Teile herstellt als der andere. In beiden Fällen könnte es nützlich sein, zu berechnen, zu welcher Teilpopulation ein Datenpunkt gehört und welche Merkmale diese Teilpopulation aufweist.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

So funktionieren Gaußsche Mischungsmodelle

GMMs finden viele reale Anwendungen, die über das Clustering hinausgehen: Segmentierung, Dichteabschätzung, Anomalieerkennung und Mustererkennung können zum Beispiel durch ein GMM angenährt werden.

Hier ist eine herausfordernde Verteilung, die eindeutig nicht Gaußscher Natur ist:

Eine nicht-Gaußsche Verteilung

Man könnte versuchen, die Gleichung dieser Kurve mit Hilfe der polynomialen Anpassung oder der trigonometrischen Approximation zu finden, aber GMMs bieten eine robuste Alternative, die weniger rechenintensiv sein kann. Bei dieser Verteilung handelt es sich eigentlich um drei verschiedene Gaußsche Verteilungen:

Die vorherige Verteilung zerlegte sich in drei Gaußsche Verteilungen

Ein GMM würde die obige Verteilung in drei verschiedene Gaußsche Verteilungen zerlegen und die Parameter für jede einzelne berechnen. Die oben gezeigten Verteilungen sind eindimensional, aber ein GMM funktioniert auch für höherdimensionale Verteilungen. Eine 2D-Mischung aus zwei Gaußschen Verteilungen kann in zwei verschiedene Verteilungen zerlegt werden.

Ein zweidimensionales Gaußsches Diagramm, das mit einem Contour Plot aufgezeichnet wurde

Bei Verwendung als Clustering-Algorithmus hat jeder Gaußsche Wert im Mischungsmodell drei Hauptparameter:

Mittlerer Vektor ( μ): das Zentrum des Clusters. In einer 1D-Verteilung ist dies ein einwertiger Vektor. In einer n-dimensionalen Verteilung ist dies ein n-wertiger Vektor.
Kovarianzmatrix (Σ): Dies ist die Streuung/Form der Gaußverteilung selbst. In einer 1D-Verteilung ist dies ein einzelner Wert, in einer n-dimensionalen Verteilung ist dies eine n x n Matrix.
Mischgewicht (π): Dies ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Datenpunkt von einer Komponente erzeugt wurde. Es ist eigentlich keine Funktion der Gaußschen Verteilung selbst, sondern eher eine Funktion des Modells, da es verschiedene Gaußsche Verteilungen kombiniert, um die Daten darzustellen, die es anpasst.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Einrichtung eines GMM

Das Ziel eines GMM besteht darin, sowohl die Parameter jeder Gaußschen Verteilung im Modell als auch die Frage, zu welcher dieser Gaußschen Verteilungen die einzelnen Datenpunkte gehören, zu schätzen. Die latente Variable, oft als z bezeichnet, ist die Gaußsche Komponente aller im Modell identifizierten Komponenten, die einen bestimmten Datenpunkt erzeugt hat. Diese Variable ist „latent“, da es sich um eine versteckte (oder nicht beobachtete) Variable handelt, die aus dem Modell gelernt werden kann.

Für jeden Punkt xn gibt es einen $z_{n}$ (wobei n die Anzahl der Komponenten ist), die Gaußsche Funktion, die erzeugt wurde $x_{i}$ (i ist in diesem Fall die Anzahl der Datenpunkte). $z_{n}$ wird in den Daten nie beobachtet, sondern nur der Punkt $x_{i}$ . Außerdem die Gaußsche Komponente, die erzeugt wurde $x_{i}$ , nicht beobachtet werden kann. Stattdessen leitet der Algorithmus zur Erwartungsmaximierung des Modells eine Verteilung möglicher z-Werte ab.

Jede Gaußsche Komponente wird mit einem Mischungskoeffizienten gewichtet, der eine Schätzung darüber darstellt, wie stark jede Verteilung die Position dieses bestimmten Datenpunkts beeinflusst. In einem Clustering-Szenario spiegelt die Mischungsgewichtung die relative Größe jedes Clusters wider. Das GMM besagt: Um die Wahrscheinlichkeit von x zu finden, stellen Sie sich vor, man wählt zuerst zufällig eine Gaußverteilung nach $π_{k}$ und zieht dann x aus dieser Gaußverteilung. Also $p (x)$ eine Mischung der Komponentendichten ist. Wenn x nahe an mehreren Mittelwerten liegt $μ_{k}$ können mehrere Gaußverteilungen ihr eine hohe Wahrscheinlichkeit zuweisen und ihre Beiträge summieren sich. Das vollständige Modell ist die gewichtete Summe dieser Gaußschen Wahrscheinlichkeitsverteilungen.

Mathematisch die Wahrscheinlichkeitsdichtefunktion eines Datenpunkts $x$ unter einem GMM mit K-Komponenten ist:

$p (x) = \sum_{k = 1}^{K} π_{k} N (x ∣ μ_{k}, Σ_{k})$

Um dies aufzuschlüsseln:

$π_{k}$ : Dies ist das Mischgewicht für die Mischungskomponente k, was eine Schätzung davon ist, wie viel das Gaußsche k zum Datenpunkt beiträgt.

$N (x ∣ μ_{k}, Σ_{k})$ : ist die Gaußsche Verteilung mit:

$μ_{k}$ der mittlere Vektor, den man als Zentrum des Gaußschen Systems betrachten kann $k$
$Σ_{k}$ Kovarianzmatrix, die „Verbreitung und Ausrichtung“ von Gaußschen Verteilungen darstellt $k$

Die Gesamtwahrscheinlichkeitsdichte bei $x$ ist $p (x)$ die eine gewichtete Summe aller Gaußschen Verteilungen darstellt.

Erwartungsmaximierung

Ein GMM wird am häufigsten mit dem Erwartungsmaximierungsalgorithmus (EM) angepasst, der iterativ Wahrscheinlichkeiten zuweist, die zu jedem Gaußschen Schritt gehören, den sogenannten E-Schritt, und die Parameter jedes Gaußschen Algorithmus, den sogenannten M-Schritt, aktualisiert.

EM ist eine leistungsfähige Methode zur Schätzung von Parametern, wenn Algorithmen wie die Maximum-Likelihood-Estimation (MLE) schwierig zu verwenden sind, z. B. im Falle eines GMM. Beim GMM wird das Modell fast immer mit Hilfe einer Log-Likelihood-Funktion angepasst. Diese Log-Likelihood ist nichtlinear und analytisch schwer zu maximieren, was bedeutet, dass MLE nicht direkt maximieren kann. Darüber hinaus verfügt ein GMM über latente Variablen (die Mischungsgewichte), die in den Daten nicht direkt beobachtbar sind und von der MLE bei der Permutierung von Beschriftungen nicht erkannt werden.

Ein anderer Ansatz, der stochastische Gradientenabstieg (SGD), erfordert, dass die zugrundeliegende Zielfunktion differenzierbar ist, was nicht immer der Fall sein muss. Außerdem kann SGD im Gegensatz zu EM nicht einfach parallelisiert werden und benötigt erhebliche Rechenressourcen für große Datenmengen. Die Parallelisierung von EM mit einem Ansatz wie Map-Reduce ist eine leistungsstarke Optimierung.

Sie besteht aus vier Schritten:

1. Initialisierung

Der EM-Algorithmus beginnt mit zufälligen Parameterwerten und geht davon aus, dass die beobachteten Daten von einem Modell stammen, das eine Schätzung vornehmen kann. Viele Implementierungen von GMM ermöglichen es den Anwendern, aus einer Vielzahl von Initialisierungen auszuwählen, wie z. B. das Festlegen anfänglicher Verantwortlichkeiten mit K-Mitteln, Zufallswerten oder Stichproben aus den Trainingsdaten.

2. E-Schritt (Erwartungsschritt)

Wir berechnen die A-posteriori-Wahrscheinlichkeit, die eine „weiche Zuweisung“ von Datenpunkten zu Komponenten ist. Angesichts der aktuellen Schätzungen der Parameter wird also gefragt: „Wie viel „ besitzt“ jeder Gaußsche Datenpunkt?“

Zunächst wird die A-posteriori-Wahrscheinlichkeit jeder latenten Variablen auf der Grundlage der beobachteten Daten berechnet. Die Wahrscheinlichkeit, dass zi=k , d. h. dass xi zur k-ten Komponente gehört, kann mit der Bayes-Regel berechnet werden:

$P (Z_{i} = k ∣ x_{i}; θ) = \frac{p (x_{i} ∣ Z_{i} = k; θ) P (Z_{i} = k; θ)}{p (x_{i}; θ)}$

Als Nächstes wird die Log-Likelihood der beobachteten Daten unter Verwendung der aktuellen Parameterschätzungen berechnet. Die erwartete Log-Likelihood in Bezug auf die Verteilung der latenten Variablen kann nun wie folgt geschrieben werden:

$Q (θ, θ^{o l d}) = \sum_{i = 1}^{n} \sum_{k = 1}^{K} γ (z_{i k}) \log [w_{k} N (x_{i}; μ_{k}, Σ_{k})]$

Die Funktion Q ist eine gewichtete Summe der Log-Likelihoods aller Datenpunkte unter jeder Gaußschen Komponente, wobei die Gewichtungen die Verantwortlichkeiten sind. Die Log-Likelihood berechnet mit den geschätzten Werten für jede Gaußsche Komponente, wie wahrscheinlich es ist, dass der Datenpunkt aus dieser Verteilung entstehen könnte. Dies unterscheidet sich von der Wahrscheinlichkeit der beobachteten Daten unter dem Mischungsmodell als Ganzes. Stattdessen stellt diese Q-Funktion eine erwartete Log-Likelihood sowohl für die beobachteten Daten als auch für die geschätzten Verteilungen der latenten Variablen dar.

3. M-Schritt (Maximierungsschritt)

Der M-Schritt aktualisiert drei unterschiedliche Werte für jede Gaußsche Verteilung:

Die mittlere Aktualisierung wird in der Regel dargestellt als $μ_{k^{n e w}}$
Aktualisierung der Kovarianzmatrix, normalerweise dargestellt als $Σ_{k^{n e w}}$
Aktualisierung des Mischungsgewichts, normalerweise dargestellt als $w_{k^{n e w}}$

Der nächste Schritt ist die Aktualisierung der Modellparameter, indem die Log-Likelihood des Modells, das die Daten produziert, maximiert wird. Je besser das Modell, desto höher ist dieser Wert.

$μ_{k^{n e w}} = \frac{\sum_{i = 1}^{n} γ (z_{i k}) x_{i}}{\sum_{i = 1}^{n} γ (z_{i k})}$

Das ist der neue Mittelwert der $k$ . Komponente ist ein gewichteter Durchschnitt aller Datenpunkte, wobei die Gewichtungen die Wahrscheinlichkeiten sind, dass diese Punkte zur Komponente gehören $k$ .

$Σ_{k^{n e w}} = \frac{\sum_{i = 1}^{n} γ (z_{i k}) (x_{i} - μ_{k^{n e w}}) {(x_{i} - μ_{k^{n e w}})}^{⊤}}{\sum_{i = 1}^{n} γ (z_{i k})}$

Dies stellt die neue Kovarianz der Komponente dar $k$ ist ein gewichteter Durchschnitt der quadratischen Abweichungen jedes Datenpunktes vom Mittelwert der Komponente, wobei die Gewichtungen die Wahrscheinlichkeiten der dieser Komponente zugewiesenen Punkte sind.

Schließlich aktualisiert der M-Schritt die Mischungsgewichte:

$w_{k^{n e w}} = \frac{1}{n} \sum_{i = 1}^{n} γ (z_{i k})$

Das neue Gewicht der $k$ . Komponente ist die Gesamtwahrscheinlichkeit der Punkte, die zu dieser Komponente gehören, normalisiert durch die Anzahl der Punkte $n$ .

4. Konvergenz

Schließlich überprüft EM, ob die Modellparameter stabil sind und konvergieren. Wenn die Änderungen der Log-Likelihood oder der Parameter unter einem festgelegten Schwellenwert liegen, stoppt der Algorithmus. Wenn nicht, folgen EM-Wiederholungen der Schritte 2 und 3, bis die Konvergenz erreicht ist.

Kurz gesagt: Der EM-Algorithmus besteht aus zwei Schritten, die iterativ wiederholt werden. Zunächst berechnet der E-Schritt die Mischungsgewichte aller Gaußschen Werte für jeden Datenpunkt. Anschließend verwendet der M-Schritt diese aktualisierten Mischungsgewichte, um die Parameter für jeden Gaußschen Wert neu zu schätzen. EM vergleicht dann die Änderung der Log-Likelihood und geht von einer Konvergenz aus, wenn sie unter einem festgelegten Schwellenwert liegt, und stoppt die Iteration.

Vergleich von GMMs

GMMs sind leistungsstark, beruhen aber auf Gaußschen Annahmen. Damit GMMs Daten gut darstellen können, müssen die Cluster elliptisch und die Dichte innerhalb der Cluster gleichmäßig sein. Cluster mit nicht elliptischen Formen oder Daten mit sehr dichten und dünn besetzten Abschnitten werden von einem GMM möglicherweise nicht gut dargestellt.

In Bezug auf die Cluster ähneln GMMs dem k-Means-Clustering, weisen jedoch einige wesentliche Unterschiede auf. Erstens geben GMMs im Gegensatz zu k-Means, das jeden Punkt einem Cluster zuweist, Wahrscheinlichkeiten für die Zugehörigkeit zu jedem Cluster an. Dies wird „Soft-Clustering“ genannt. Da Cluster sowohl elliptisch als auch überlappend sein können, sind GMMs oft flexibler und lassen mehr Unsicherheit bei den Clustergrenzen zu.

Für binäre oder kategoriale Daten sind GMMs nicht gut geeignet, aber ein ähnlicher Ansatz mit Bernoulli-Verteilungen oder multinomialen Verteilungen kann die Daten effektiv anpassen. Umgekehrt passen diese Arten von Modellen Daten nicht an, die aus stetigen Variablen bestehen, während ein GMM die Daten häufig gut anpasst.

Da GMMs versuchen, die Parameter von Gaußschen Verteilungen zu schätzen, lassen sich einige Daten besser mit einer nichtparametrischen Methode wie der Kernel-Dichte-Estimation (KDE) modellieren. Eine KDE trifft keine Annahmen über die Verteilungen von Clustern oder Teilgesamtheiten, sondern schätzt stattdessen die Dichte über kleine, lokale Kernel für jeden Datenpunkt. Dieser Ansatz ist nützlich, wenn Ihre Daten aus komplexen Verteilungen bestehen, ohne eine bestimmte Form anzunehmen.

Eine Erweiterung von GMM ist der Variational Autoencoder (VAE), ein generatives Modell, das flexible latente Verteilungen lernt. In einem VAE ist das Gesamtziel dasselbe, es wird aber kein EM verwendet. Ein VAE verwendet ein probabilistisches Encoder-Decoder-Framework, um latente Repräsentationen auf die gleiche Weise zu lernen, wie ein GMM jedem Datenpunkt Mischungsgewichte zuweist. Der Hauptunterschied besteht darin, dass bei der EM die A-posterior-Wahrscheinlichkeit berechnet werden kann, während dies bei einem VAE nicht der Fall ist, was es viel flexibler macht. Der Nachteil besteht darin, dass ein VAE oft komplexer und zeitaufwändiger zu schulen ist.

GMM-Anwendungsfälle

Diese Erläuterung konzentriert sich stark auf das Cluster, da sie eine intuitive Einführung in GMMs bietet. Es gibt allerdings noch andere Szenarien, in denen GMMs hilfreich sein können. Funktionsentwicklung, Anomalieerkennung und Dichteschätzung sind gängige Aufgaben, bei denen GMMs sehr nützlich sein können.

Funktionsentwicklung: Während einige Algorithmen für maschinelles Lernen wie XGBoost es Modellen ermöglichen, eine Vielzahl von Verteilungen von Eingabemerkmalen zu lernen, haben andere strengere Anforderungen. Lineare und logistische Regression, lineare Diskriminanzanalyse (LDA), und multivariate Gaußsche Verteilungen erwarten in der Regel, dass Funktionen normalverteilt sind und funktionieren möglicherweise nicht gut, wenn die Daten multimodal sind. Es gibt andere analytische und visuelle Gründe, die für den Umgang mit Multimodalität nützlich sind, wobei GMM helfen kann.

Unüberwachte Klassifizierung: GMM funktioniert ähnlich wie beim k-Means-Algorithmus, ermöglicht aber eine probabilistische Bestimmung der Klassenzugehörigkeit, im Gegensatz zu k-Means, bei dem die Ausgabe eine binäre Metrik ist. Dies kann besonders für Anwendungsfälle von Vorteil sein, die benutzerdefinierte Schwellenwerte für die Kategorisierung oder eine probabilistische Ausgabe erfordern.

Erkennung von Anomalien: Eine multivariate Gaußsche Verteilung kann verwendet werden, um Datenpunkte zu identifizieren, die mit geringer Wahrscheinlichkeit einer oder mehreren Gaußschen Verteilungen folgen. Auf diese Weise kann ein GMM dabei helfen, zwei Arten von anomalen Daten zu finden: Anomalien, die Sonderfälle einer Grundgesamtheit darstellen (z. B. ein Fehler bei der Dateneingabe), und Anomalien, die eine eigene Gruppe bilden (z. B. Verhalten bei Kreditkartenbetrug).

Das GMM ist ein Modell, das für die unterschiedlichsten Aufgaben geeignet ist und schnell trainiert und einfach optimiert werden kann. Obwohl es einige Einschränkungen in Bezug auf die Art der Daten gibt, für die es gut geeignet ist, kann es bei einer Vielzahl von Aufgaben im maschinellen Lernen und in der Data Science nützlich sein.

Implementierung von GVM

In Python kann man die scikit-learn Bibliothek zur schnellen Erstellung eines GMM verwenden:

from sklearn.datasets import make_blobs
from sklearn.mixture import GaussianMixture
from sklearn.metrics import accuracy_score

# create some clusters
X, y = make_blobs(n_samples=400, centers=3, cluster_std=0.75, random_state=0)

# fit the GMM
gmm = GaussianMixture(n_components=3).fit(X)

Visualisierung der Ergebnisse des Clusterings:

# predict the labels themselves
labels = gmm.predict(X)

# print the accuracy
print(f" Accuracy is {accuracy_score(y, labels)}")

# scatterplot the X values
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')

In R kann ein Paket namens mclust verwendet werden, das für modellbasiertes Clustering steht, um GMMs zu erstellen.

# Install and load the 'mclust' package
library(mclust)

# create a matrix of data from normal distributions
data <- rbind(matrix(c(rnorm(50, mean = 0, sd = 1), rnorm(50, mean = 1, sd = 1.25)), ncol=2),
              matrix(c(rnorm(50, mean = 4, sd = 1), rnorm(50, mean = 2, sd = 1.25)), ncol = 2),
              matrix(c(rnorm(50, mean = 8, sd = 1.25), rnorm(50, mean = 4, sd = 0.75)), ncol = 2))

# Perform GMM clustering, G represents the number of expected clusters
gmm_model <- Mclust(data, G = 3)  

# Get the cluster assignments
cluster_assignments <- predict(gmm_model)$classification

# Visualize the results
plot(data, col = cluster_assignments, main = "GMM Clustering Results")
points(gmm_model$parameters$mean, col = 1:3)

Sowohl in Python als auch in R muss der Entwickler den Hyperparameter, der die Anzahl der Cluster angibt, als Parameter für den GMM festlegen. Wie bei KNN besteht eine häufig verwendete Strategie für die Auswahl dieser Anzahl von Clustern darin, Modelle für unterschiedliche Cluster zu schulen und jeden einzelnen zu vergleichen. Die am häufigsten verwendeten Metriken zum Vergleichen von Modellen sind:

Silhouettenkoeffizient: Dieser Koeffizient wird für jede Stichprobe definiert und setzt sich aus zwei Werten zusammen: dem mittleren Abstand zwischen einer Stichprobe und allen anderen Punkten im selben Cluster und dem mittleren Abstand zwischen einer Stichprobe und allen anderen Punkten im nächstgelegenen Cluster.

Jensen-Shannon: Dies misst die Divergenz zwischen Verteilungen und wird meistens berechnet, indem zuerst die Kullback-Leibler-Divergenz, der Durchschnitt der Log-Likelihood-Verhältnisse über die Stichproben, berechnet und dann der Mittelwert der beiden resultierenden KL-Divergenzwerte gebildet wird. Das Konzept der Verteilungsähnlichkeit wird durch die Jensen-Shannon-Metrik (JS) dargestellt. Je geringer der JS-Abstand zwischen den beiden GMMs ist, desto mehr sind sich diese GMMs einig, wie die Daten angepasst werden sollen.

Bayes'sches Informationskriterium (BIC): Dieses Kriterium gibt eine Einschätzung darüber, wie gut das Modell die Daten vorhersagt, wobei die Anzahl der im Modell enthaltenen Parameter berücksichtigt wird. Wenn K zu klein ist, ist die Log-Likelihood des Modells niedrig und der BIC-Wert hoch. Wenn K zu groß ist, kann die Wahrscheinlichkeit hoch sein, aber die Strafe gegen größere Werte (und damit die Überanpassung) führt auch zu einem größeren BIC-Wert.

Akaike Information Criterion (AIC): Dies funktioniert sehr ähnlich wie BIC, berechnet jedoch eine geringere Strafe für die Anzahl der Parameter.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden

Erkunden Sie KI-Lösungen

Was ist ein Gaußsches Mischungsmodell?

Autor

Gaußsche Mischungsmodelle, definiert

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

So funktionieren Gaußsche Mischungsmodelle

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Einrichtung eines GMM

Erwartungsmaximierung

1. Initialisierung

2. E-Schritt (Erwartungsschritt)

3. M-Schritt (Maximierungsschritt)

4. Konvergenz

Vergleich von GMMs

GMM-Anwendungsfälle

Implementierung von GVM

Ressourcen

Ressourcen