La natura dei dati è cambiata radicalmente negli ultimi anni. Non è più limitata alle informazioni strutturate memorizzate ordinatamente nelle righe e colonne dei database tradizionali. I dati non strutturati, inclusi post sui social media, immagini, video e audio, stanno crescendo sia in volume che in valore, rimodellando le strategie di AI aziendale e ponendo nuove richieste all'infrastruttura dati.
I database relazionali tradizionali eccellono nella gestione di set di dati strutturati e semistrutturati all'interno di schemi definiti. Tuttavia, caricare e preparare dati non strutturati in un database relazionale per workload di AI è laborioso.
La ricerca tradizionale è caratterizzata da questa limitazione: si basa su token discreti come parole chiave, tag o metadati e restituisce risultati basati su corrispondenze esatte. Una ricerca per "smartphone", ad esempio, recupera solo i contenuti che contengono quel termine specifico.
I database vettoriali adottano un approccio fondamentalmente diverso. Al posto di righe e colonne, i punti dati sono rappresentati come vettori densi in cui ogni dimensione rappresenta una caratteristica appresa dei dati. Questi embedding vettoriali ad alta dimensione esistono nello spazio vettoriale, dove le relazioni tra gli elementi possono essere misurate geometricamente.
Poiché ogni dimensione rappresenta una caratteristica latente, una caratteristica dedotta appresa tramite modelli matematici e algoritmi, le rappresentazioni vettoriali catturano schemi nascosti. Una query di ricerca vettoriale per "smartphone" può anche restituire risultati semanticamente correlati come "cellulare" o "dispositivo mobile", anche se non compaiono quelle parole esatte.
Modellando i dati in spazi ad alta dimensione e applicando tecniche di indicizzazione specializzate, i database vettoriali rendono consentono di eseguire ricerche di similarità a bassa latenza su grandi set di dati, cosa che i database relazionali non sono progettati per fare.