Im Gegensatz zur herkömmlichen Suche, bei der in der Regel eine Stichwortsuche verwendet wird, stützt sich die Vektorsuche auf Vektorähnlichkeitssuchtechniken wie die k-nächste-Nachbarn-Suche (knn), um Datenpunkte abzurufen, die einem Abfragevektor auf der Grundlage einer Distanzmetrik ähneln. Vektoren erfassen semantische Beziehungen und Ähnlichkeiten zwischen Datenpunkten und ermöglichen so eine semantische Suche anstelle einer einfachen Stichwortsuche.

Um den Unterschied zwischen der herkömmlichen Stichwortsuche und der Vektorsuche zu veranschaulichen, betrachten wir ein Beispiel. Nehmen wir an, Sie suchen nach Informationen über das beste Pizzarestaurant und geben in einer herkömmlichen Suchmaschine den Begriff „bestes Pizzarestaurant“ ein. Die Stichwortsuche sucht nach Seiten, die die genauen Wörter „beste“, „Pizza“ und „Restaurant“ enthalten, und gibt nur Ergebnisse wie „Bestes Pizza-Restaurant“ oder „Pizza-Restaurant in meiner Nähe“ zurück. Bei der herkömmlichen Stichwortsuche liegt der Schwerpunkt auf der Übereinstimmung der Stichwörter und nicht auf dem Verständnis des Kontexts oder der Absicht hinter der Suche.

Im Gegensatz dazu versteht die Suchmaschine bei einer semantischen Vektorsuche die Absicht hinter der Abfrage. Semantik bedeutet per Definition, sich auf die Bedeutung in der Sprache zu beziehen, d. h., die semantische Suche versteht die Bedeutung und den Kontext einer Abfrage. In diesem Fall würde nach Inhalten gesucht, in denen über erstklassige oder sehr empfehlenswerte Pizzerien gesprochen wird, auch wenn die genauen Wörter „bestes Pizzarestaurant“ nicht im Inhalt verwendet werden. Die Ergebnisse sind kontextbezogener und können Artikel oder Leitfäden enthalten, die hochwertige Pizzerien an verschiedenen Orten vorstellen.

Bei herkömmlichen Suchmethoden werden Daten in der Regel mithilfe diskreter Token oder Merkmale wie Schlüsselwörter, Tags oder Metadaten dargestellt. Wie in unserem obigen Beispiel gezeigt, beruhen diese Methoden auf exakten Übereinstimmungen, um relevante Ergebnisse zu erhalten. Im Gegensatz dazu stellt die Vektorsuche Daten als dichte Vektoren (ein Vektor, bei dem die meisten oder alle Elemente ungleich Null sind) in einem kontinuierlichen Vektorraum dar, dem mathematischen Raum, in dem Daten als Vektoren dargestellt werden. Jede Dimension des dichten Vektors entspricht einem latenten Merkmal oder Aspekt der Daten, einer zugrunde liegenden Eigenschaft oder einem Attribut, das nicht direkt beobachtet, sondern aus den Daten durch mathematische Modelle oder Algorithmen abgeleitet wird. Diese latenten Merkmale erfassen die verborgenen Muster und Beziehungen in den Daten und ermöglichen aussagekräftigere und genauere Darstellungen von Elementen als Vektoren in einem hochdimensionalen Raum.