A differenza dei database relazionali tradizionali con righe e colonne, i punti di dati in un database vettoriale sono rappresentati da vettori con un numero fisso di dimensioni. Poiché utilizzano incorporamenti vettoriali ad alta dimensionalità, i database vettoriali sono in grado di gestire meglio i set di dati non strutturati.



La natura dei dati ha subito una profonda trasformazione. Non si tratta più di informazioni strutturate facilmente memorizzabili nei database tradizionali. I dati non strutturati, tra cui post sui social media, immagini, video, clip audio e altro ancora, stanno crescendo dal 30% al 60% anno dopo anno.2

I database relazionali eccellono nella gestione di set di dati strutturati e semistrutturati in formati specifici. Caricare origini di dati non strutturati in un database relazionale tradizionale per memorizzare, gestire e preparare i dati per l'intelligenza artificiale (AI) è un processo molto laborioso, soprattutto quando si tratta di nuovi casi d'uso generativi come la ricerca per similarità.

Ricerca tradizionale rappresenta tipicamente i dati utilizzando caratteristiche o token discreti, come parole chiave, tag o metadati. Le ricerche tradizionali si basano sulle corrispondenze esatte per recuperare i risultati rilevanti. Ad esempio, la ricerca di "smartphone" restituirà risultati contenenti la parola "smartphone".

Al contrario, la ricerca vettoriale rappresenta i dati come vettori densi, che sono vettori con la maggior parte o tutti gli elementi diversi da zero. I vettori sono rappresentati in uno spazio vettoriale continuo, lo spazio matematico in cui i dati sono rappresentati come vettori.

Le rappresentazioni vettoriali consentono la ricerca per similarità. Ad esempio, una ricerca vettoriale per "smartphone" potrebbe restituire risultati anche per "cellulare" e "dispositivi mobili".

Ogni dimensione del vettore denso corrisponde a una caratteristica latente o a un aspetto dei dati. Una caratteristica latente è una caratteristica o un attributo sottostante che non viene osservato direttamente, ma che viene dedotto dai dati attraverso modelli matematici o algoritmi.

Le caratteristiche latenti acquisiscono i pattern e le relazioni nascoste nei dati, consentendo rappresentazioni più significative e accurate degli elementi come vettori in uno spazio ad alta dimensionalità.