Im Gegensatz zu herkömmlichen relationalen Datenbanken mit Zeilen und Spalten werden Datenpunkte in einer Vektordatenbank durch Vektoren mit einer festen Anzahl von Dimensionen dargestellt. Da sie hochdimensionale Vektoreinbettungen verwenden, sind Vektordatenbanken besser in der Lage, unstrukturierte Datensätze zu verarbeiten.



Die Natur der Daten hat einen tiefgreifenden Wandel erfahren. Sie sind nicht mehr länger darauf beschränkt, strukturierte Informationen problemlos in herkömmlichen Datenbanken zu speichern. Unstrukturierte Daten– einschließlich Social-Media-Beiträge, Bilder, Videos, Audio-Clips und mehr – nehmen jährlich um 30 % bis 60 % zu.2

Relationale Datenbanken eignen sich hervorragend für die Verwaltung strukturierter und halbstrukturierter Datensätze in bestimmten Formaten. Das Laden unstrukturierter Datenquellen in eine herkömmliche relationale Datenbank zur Speicherung, Verwaltung und Vorbereitung der Daten für künstliche Intelligenz (KI) ist ein arbeitsintensiver Prozess, insbesondere bei neuen generativen Anwendungsfällen wie der Ähnlichkeitssuche.

Herkömmliche Suche stellt in der Regel Daten dar, indem einzelne Token oder Features wie Schlüsselwörter, Tags oder Metadaten verwendet werden. Herkömmliche Suchanfragen beruhen auf exakten Übereinstimmungen, um relevante Ergebnisse zu erhalten. Beispielsweise würde eine Suche nach „Smartphone“ Ergebnisse zurückgeben, die das Wort „Smartphone“ enthalten.

Im Gegensatz dazu stellt die Vektorsuche Daten als dichte Vektoren dar, d. h. als Vektoren, bei denen die meisten oder alle Elemente ungleich Null sind. Vektoren werden in einem kontinuierlichen Vektorraum dargestellt, dem mathematischen Raum, in dem die Daten als Vektoren dargestellt werden.

Vektorrepräsentationen ermöglichen die Ähnlichkeitssuche. Beispielsweise könnte eine Vektorsuche nach „Smartphone“ auch Ergebnisse für „Mobiltelefon“ und „Mobilgeräte“ liefern.

Jede Dimension des dichten Vektors entspricht einem latenten Merkmal oder Aspekt der Daten. Ein latentes Merkmal ist ein zugrunde liegendes Merkmal oder Attribut, das nicht direkt beobachtet, sondern von den Daten durch mathematische Modelle oder Algorithmen abgeleitet wird.

Latente Merkmale erfassen die verborgenen Muster und Beziehungen in den Daten und ermöglichen so aussagekräftigere und genauere Darstellungen von Elementen als Vektoren in einem hochdimensionalen Raum.