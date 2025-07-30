Im Kern misst die Kosinus-Ähnlichkeit, inwieweit zwei Vektoren aufeinander ausgerichtet sind, indem sie den Kosinus des Winkels zwischen ihnen berechnet.

Bei realen Anwendungen wie dem Vergleich von Dokumenten werden Daten als Vektoren in einem mehrdimensionalen Raum dargestellt. Jede Dimension kann ein bestimmtes Wort, ein bestimmtes Attribut oder eine bestimmte Aktion darstellen, und der Wert in dieser Dimension gibt an, wie prominent oder wichtig dieses Element ist.

So berechnet man die Kosinus-Ähnlichkeit:

Das Skalarprodukt finden: Man multipliziert die entsprechenden Werte in jedem Vektor und addiert die Ergebnisse. Dadurch wird erfasst, wie die Vektoren mit Blick auf die Richtung aufeinander ausgerichtet sind.



Größe bestimmen: Die Größe (bzw. die Länge) jedes Vektors wird anhand der Quadratwurzel der Summe seiner quadratischen Komponenten berechnet.



Kosinus-Ähnlichkeit berechnen: Die Kosinus-Ähnlichkeit wird ermittelt, indem das Skalarprodukt (Schritt 1) durch das Produkt der Größen der Vektoren (Schritt 2) dividiert wird. Das Ergebnis ist ein Kosinus-Ähnlichkeitswert zwischen -1 und 1.

Die Formel kann wie folgt dargestellt werden:

Kosinus-Ähnlichkeit = (A · B) / (||A|| × ||B||)

Wo gilt:

A · B ist das Punktprodukt der Vektoren A und B

ist das Punktprodukt der Vektoren A und B ||A|| ist die Magnitude (Länge) des Vektors A

ist die Magnitude (Länge) des Vektors A ||B|| ist die Größe des Vektors B

Die resultierende Punktzahl reicht von -1 bis 1.

Stellen Sie sich zur weiteren Veranschaulichung zwei Wörter vor: „König“ und „Königin“.

Beide werden in ähnlichen Kontexten verwendet. Bei der Verarbeitung durch ein LLM wird jedes Wort in eine Vektoreinbettung übersetzt, das die semantische Bedeutung eines Begriffs auf der Grundlage seiner Verwendung in Millionen von Sätzen erfasst. Da „König“ und „Königin“ beide häufig in der Nähe von Wörtern wie „Royal“, „Thron“ und „Monarch“ vorkommen, weisen die daraus resultierenden Einbettungen in fast dieselbe Richtung.

Betrachten wir nun ein drittes Wort: „Apfel“. Obwohl es in einigen der gleichen Dokumente vorkommt, wird es häufiger mit Begriffen wie „Obst“, „Garten“ oder „knackig“ in Verbindung gebracht. Sein Vektor zeigt in eine fast entgegengesetzte Richtung, was zu einer geringeren Kosinus-Ähnlichkeit führt. Bei der Darstellung in einem Diagramm würden die Pfeile „König“ und „Königin“ fast nebeneinander verlaufen, während der Pfeil „Apfel“ in einem auffälligen Winkel in eine ganz andere Richtung zeigen würde.

Um die Leistung zu optimieren und ein schnelleres Auffinden relevanter Übereinstimmungen zu unterstützen, speichern viele Unternehmen diese Einbettungen in speziellen Vektordatenbanken. Dabei handelt es sich um Tools, die hochdimensionale Vektoren indizieren, um die Suche zu verbessern und die ähnlichsten Ergebnisse zurückzugeben.