Cosa sono i database vettoriali RAG?

Database vettoriali RAG, definizione

I database vettoriali di Retrieval-augmented generation (RAG) combinano l'AI con la ricerca avanzata, permettendo ai grandi modelli linguistici(LLM) di recuperare informazioni rilevanti in tempo reale e generare risposte più accurate e consapevoli del contesto.

Un database vettoriale RAG è costituito da due componenti chiave: un'architettura di recupero (RAG) e un livello dati (database vettoriali).

Cos'è la RAG?

La RAG è un'architettura che collega un modello linguistico a fonti di conoscenza esterne, consentendo di recuperare informazioni pertinenti e incorporare quel contesto nelle risposte al momento della richiesta. Questo approccio affronta limitazioni comuni degli LLM, tra cui i tagli di conoscenza, le allucinazioni e la mancanza di specificità di dominio.

Cosa sono i database vettoriali?

Un database vettoriale (o database vettoriale) memorizza e recupera dati come rappresentazioni numeriche chiamate embedding vettoriali, permettendo la ricerca basata sulla somiglianza semantica piuttosto che su corrispondenze esatte di parole chiave. Questo processo permette ai sistemi di recuperare informazioni basate sul significato, anche quando la formulazione differisce.

I guadagni prestazionali di questa tecnologia sono misurabili. Quando Wikimedia Deutschland ha dovuto rendere accessibile agli LLM il Knowledge graph di 120 milioni di voci di Wikidata, ha scelto DataStax Astra DB on IBM watsonx.data come database vettoriale. Il risultato: velocità di query 30 volte più rapide rispetto al calcolo vettoriale locale e una riduzione del 90% dei tempi di sviluppo, consentendo al team di concentrarsi sulla costruzione piuttosto che sulla manutenzione dell'infrastruttura.

Nella maggior parte delle implementazioni RAG, i sistemi RAG si basano su database vettoriali o tecniche di indicizzazione vettoriale per consentire la ricerca semantica. Tuttavia, la ricerca vettoriale non è strettamente necessaria. Le architetture RAG possono anche incorporare la ricerca per parola chiave, query strutturate o approcci ibridi a seconda del caso d'uso.

Perché i database vettoriali RAG sono importanti

I database vettoriali RAG ridefiniscono il modo in cui i sistemi di machine learning e di AI generativa (gen AI) accedono e applicano le informazioni. Invece di trattare la conoscenza come qualcosa di fisso all'interno di un modello, la trattano come qualcosa che può essere recuperato, valutato e utilizzato nel contesto in modo dinamico.

Questo cambiamento ha implicazioni in quattro aree chiave: conoscenza, recupero, radicamento e operazioni.

Conoscenza

Anche i modelli più avanzati sono limitati dai dati di addestramento. Con l'invecchiamento di questi dati o con la maggiore specializzazione dei casi d'uso, iniziano ad apparire le lacune.

La RAG indirizza questo problema introducendo quella che i ricercatori spesso descrivono come "memoria non parametrica", ovvero una conoscenza esterna che può essere interrogata a tempo di esecuzione anziché memorizzata nei parametri del modello.1

Recupero

I sistemi di ricerca tradizionali si basano tipicamente sull'abbinamento delle parole chiave, presupponendo che utenti e dati utilizzino lo stesso linguaggio. In pratica, spesso non lo fanno. I database vettoriali spostano il recupero delle informazioni dalla corrispondenza tra parole alla corrispondenza tra significato, utilizzando la similarità vettoriale per confrontare quanto le rappresentazioni siano simili.

Gli approcci ibridi di recupero utilizzati nei sistemi RAG combinano il recupero semantico con metodi di ricerca tradizionali per migliorare sia il richiamo che la precisione, in particolare in ambienti aziendali in cui i dati sono eterogenei e complessi.2

Base di contenuti

I modelli generativi sono probabilistici, ovvero generano risposte plausibili, non fatti verificati, creando il rischio di allucinazioni.

La RAG mitiga questo problema fondando le risposte sui dati ripristinati. Gli studi nei settori come l'assistenza sanitaria e la formazione dimostrano che la combinazione del recupero con la generazione migliora l'accuratezza e l'affidabilità dei fatti nei sistemi di risposta alle domande.3

Operazioni

La RAG cambia il modo in cui i sistemi di AI vengono mantenuti e scalati. Invece di riaddestrare i modelli per incorporare nuove conoscenze, le organizzazioni possono aggiornare i dati sottostanti o la logica di recupero, permettendo iterazioni più rapide e maggiore adattabilità tra i casi d'uso.

Di conseguenza, il RAG è diventato un modello architettonico dominante nei moderni sistemi di AI, specialmente negli ambienti aziendali e nelle app rivolte al consumatore dove i modelli devono accedere a dati aggiornati o esterni per generare risposte accurate.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Come funzionano i database vettoriali RAG

Ad alto livello, i database vettoriali RAG seguono una sequenza strutturata:

  1. Un utente invia un prompt
  2. I token vengono convertiti in embedding
  3. Il database vettoriale recupera embedding simili
  4. I dati recuperati sono classificati in base alla rilevanza della query originale
  5. Il contesto del modello viene arricchito con i dati recuperati
  6. Il modello genera una risposta
Retrieval-augmented generation

1. Un utente invia un prompt

Ogni interazione inizia con una query dell'utente espressa in linguaggio naturale. In questa fase, l'input esiste come token, le unità di testo elaborate dai modelli linguistici. I token rappresentano il modo in cui il linguaggio è scritto e strutturato, ma non catturano ancora il significato in un modo che ne permetta la ricerca.

2. I token vengono convertiti in embedding

Per rendere la query ricercabile, essa viene trasformata in un embedding che fornisce una rappresentazione numerica del significato. Un modo per comprenderlo è attraverso la geografia.

  • I token sono come i nomi dei luoghi: "New York City", "NYC", "Manhattan".
  • Gli embedding sono come le coordinate: latitudine e longitudine.

Convertendo i token in embedding, il sistema si sposta dal linguaggio a uno spazio in cui il significato può essere confrontato matematicamente (spazio vettoriale ad alta dimensionalità).

3. Il database vettoriale recupera embedding simili

Una volta che la query è rappresentata come un embedding (o vettore di interrogazione), il database vettoriale cerca vettori simili. Questo processo si basa su metriche di somiglianza come la somiglianza del coseno, che misurano l'allineamento dei vettori nello spazio ad alta dimensionalità. Molti sistemi includono anche livelli di classificazione che danno priorità ai risultati più rilevanti, migliorando accuratezza e coerenza.

4. I dati recuperati vengono classificati in base alla rilevanza della query originale.

Il sistema recupera segmenti o "blocchi" (chunk) di dati più piccoli associati agli embedding più simili. Questo processo, noto come "chunking", determina la qualità del recupero in base al modo in cui vengono definiti i blocchi. Se sono troppo grandi, il recupero potrebbe non essere preciso. Se troppo piccoli, potrebbero perdere il contesto.

5. Il contesto del modello è ampliato con i dati recuperati

Le informazioni recuperate vengono inserite nell'input del modello, un processo denominato prompt augmentation. La query originale e il contesto recuperato formano un'unica sequenza di token. Il modello non li distingue. Semplicemente, elabora l'input combinato e genera una risposta, rendendo critica la struttura del prompt.

6. Il modello genera una risposta

Con l'augmented prompt, il modello genera quindi una risposta. Questa fase evidenzia come la RAG differisca da processi come il fine-tuning, che modifica i parametri interni del modello, con l'embedding della conoscenza direttamente nel modello. La RAG recupera le informazioni al tempo di esecuzione, lasciando il modello invariato. In altre parole, la messa a punto migliora ciò che il modello conosce, mentre la RAG migliora ciò a cui il modello può accedere.

Componenti principali di un sistema di database vettoriale RAG

I sistemi di database vettoriali RAG non sono un singolo strumento, ma un insieme coordinato di componenti che lavorano in sinergia per strutturare e generare risposte. I componenti principali di questo processo includono:

  • Base di conoscenza
  • Modello di embedding
  • Database vettoriale
  • Strumento di recupero
  • Livello di integrazione
  • Generatore

Base di conoscenza

La base di conoscenza è la fonte esterna di verità del sistema. Contiene i dati che il modello andrà a recuperare, che possono includere documenti, PDF, record strutturati, ticket di assistenza o altri contenuti non strutturati.

Negli ambienti aziendali, questi dati sono spesso frammentati tra diversi sistemi e formati. Di conseguenza, la qualità della base di conoscenza influisce direttamente sulla qualità degli output del sistema.

Modello di embedding

Il modello di embedding traduce il linguaggio naturale in rappresentazioni vettoriali che ne catturano il significato.

Questa componente determina come le informazioni vengono posizionate nello spazio semantico, influenzando il confronto tra query e documenti durante il recupero. Se il modello di embedding non riesce a catturare sfumature specifiche del dominio, come la terminologia tecnica o le relazioni contestuali, la qualità del recupero ne risentirà.

Database vettoriale

Il database vettoriale memorizza e indicizza gli embedding, consentendo una rapida ricerca di similarità tra grandi set di dati . Il suo ruolo non si limita allo storage, ma include anche le prestazioni. Le tecniche di indicizzazione, come la ricerca dei vicini più prossimi approssimati (ANN), consentono al sistema di individuare rapidamente i vettori rilevanti, anche su larga scala. Una recente ricerca IBM dimostra che i sistemi sono in grado di gestire da decine a centinaia di miliardi di vettori.

Allo stesso tempo, i database vettoriali spesso supportano il filtraggio dei metadati e della ricerca ibrida, consentendo ai sistemi di perfezionare i risultati in base a vincoli aggiuntivi come data, categoria o fonte.

Retriever

Lo strumento di recupero funge da interfaccia tra la query utente e il database vettoriale. Utilizza un modello di embedding per convertire la query in una rappresentazione vettoriale, esegue la ricerca utilizzando un'application programming interface (API) o un kit di sviluppo software (SDK) e restituisce i risultati più rilevanti.

Questo processo è alla base della moderna ricerca AI. In sistemi più avanzati, lo strumento di recupero può includere anche logica di classificazione, meccanismi di filtraggio o strategie di recupero a più passaggi per migliorare la precisione.

Livello di integrazione

Il livello di integrazione governa il sistema, gestendo il flusso di dati tra i componenti e la modalità di costruzione dei prompt. Prende i risultati recuperati, li organizza e li inserisce nell'input del modello in modo strutturato.

L'integrazione è dove entrano in gioco i framework di prompt engineering e orchestrazione, assicurando che il modello riceva un contesto chiaro e pertinente. Spesso, i sistemi vengono realizzati utilizzando una combinazione di strumenti open source, librerie Python e piattaforme di database vettoriali come Pinecone o Milvus. In definitiva, questo coordinamento consente una ricerca AI scalabile attraverso le app e i set di dati su larga scala.

Generatore

Il generatore è il modello linguistico responsabile della produzione della risposta finale. Non recupera autonomamente le informazioni ma interpreta il prompt aumentato e genera una risposta in base al contesto che gli è stato fornito. Questa distinzione è importante. Il ruolo del generatore non è quello di "sapere" tutto, ma piuttosto di sintetizzare ed esprimere le informazioni fornite dal sistema.

Considerazioni sul database vettoriale RAG

La progettazione e la distribuzione di database vettoriali RAG comporta compromessi tra accuratezza, prestazioni e complessità del sistema. Sebbene l'architettura sia concettualmente semplice, la sua efficacia dipende dalla capacità di ogni componente di adattarsi al compito da svolgere. Spesso si prendono in considerazione i seguenti aspetti:

  • Qualità del recupero
  • Strategia di chunking
  • Limiti di dimensione della finestra contestuale
  • Latenza e complessità
  • Sicurezza e governance

Qualità del recupero

I sistemi RAG dipendono dal recupero come fonte di verità primaria. Se il sistema recupera informazioni incomplete o irrilevanti, il modello genererà una risposta errata. Questa sfida spesso deriva dall'embedding della logica della qualità e del ranking. Gli embedding potrebbero non cogliere le sfumature specifiche del dominio, mentre la ricerca di similarità potrebbe presentare risultati tecnicamente simili ma contestualmente errati.

Per affrontare questo problema, i sistemi moderni incorporano strati di riclassificazione, modelli di embedding specifici per dominio e tecniche di recupero ibride che combinano la somiglianza semantica con il filtraggio strutturato.

Strategia di chunking

Le prestazioni di recupero dipendono anche dal modo in cui i dati vengono segmentati. Poiché i documenti vengono suddivisi in parti più piccole prima di essere recuperati, strategie di suddivisione mal definite possono frammentare il significato o ridurre la precisione. Spesso, i team trattano il chunking come una considerazione di progettazione, bilanciando la specificità con il contesto.

Limiti di dimensione della finestra contestuale

Anche quando il recupero è efficace, il modello può elaborare solo una quantità limitata di informazioni contemporaneamente (la sua finestra di contesto). Nelle query complesse, in particolare quelle che richiedono la sintesi da più fonti, questa limitazione può limitare il ragionamento costringendo il sistema a dare priorità agli aspetti più rilevanti. I sistemi economici trattano il contesto come una risorsa scarsa, utilizzando tecniche come la sintesi e il recupero selettivo per massimizzarne il valore.

Latenza e complessità

La RAG introduce ulteriori passaggi nella pipeline di inferenza, tra cui la generazione di embedding, la ricerca vettoriale e la costruzione di prompt. Ogni passaggio aggiunge valore, ma aggiunge anche latenza.

Nelle applicazioni AI in tempo reale, anche piccoli ritardi possono influenzare l'esperienza utente. Nelle implementazioni su larga scala, possono creare delle sfide in termini di produttività e reattività. Ecco perché i sistemi di produzione spesso si affidano a tecniche di indicizzazione ottimizzate come la ricerca ANN, il caching e l'elaborazione parallela per bilanciare precisione e complessità.

Sicurezza e governance

Poiché i sistemi RAG collegano i modelli a fonti di dati esterne, introducono nuove considerazioni di sicurezza sull'accesso ai dati, sulla privacy e sulla conformità.

A differenza dei modelli tradizionali, in cui la conoscenza è incorporata nei parametri, le applicazioni RAG operano sui dati in tempo reale. Questa modalità consente aggiornamenti in tempo reale e controllo degli accessi, ma richiede anche misure di sicurezza, come i guardrail, per garantire la protezione delle informazioni sensibili durante tutta la pipeline.

I database vettoriali, in particolare, memorizzano gli embedding derivati dai dati sorgente. Anche se non si tratta di copie dirette, queste rappresentazioni possono essere sottoposte a ingegneria inversa per dedurre le informazioni sottostanti. Di conseguenza, i sistemi RAG aziendali richiedono solidi framework di di governance, che includano crittografia, controlli di accesso e tracciabilità.

Casi d'uso del database vettoriale RAG

I database vettoriali RAG sono particolarmente preziosi in situazioni in cui le informazioni sono vaste, dinamiche e difficili da navigare utilizzando interfacce tradizionali. Ecco alcuni esempi:

Chatbot aziendali e assistenti alla conoscenza

I database vettoriali RAG supportano sia chatbot aziendali che assistenti alla conoscenza interni recuperando e sintetizzando informazioni da grandi fonti di dati distribuite in tempo reale. Questo permette ai chatbot di fornire risposte di assistenza aggiornate, aiutando i dipendenti a interrogare documenti interni e workflow utilizzando il linguaggio naturale senza dover cercare su più sistemi.

Workflow di ricerca e analytics

In ambiti come finanza, sanità e analisi legale, i sistemi RAG presentano informazioni rilevanti da molteplici fonti nel contesto, permettendo agli utenti di porre domande complesse e multiparte e ricevere risposte sintetizzate. Il risultato è un aumento della velocità e della precisione nel processo decisionale.

Sistemi di raccomandazione

I database vettoriali RAG migliorano i motori di raccomandazione, consentendo la somiglianza semantica tra le preferenze e i contenuti degli utenti. Questi sistemi possono generare spiegazioni insieme alle raccomandazioni, facendo emergere risultati basati non solo sul comportamento passato, ma anche su caratteristiche condivise, recensioni o modelli di utilizzo recuperati dai dati sottostanti.

Il futuro dei database vettoriali RAG

I database vettoriali RAG si stanno evolvendo rapidamente, man mano che le organizzazioni si spostano dalle implementazioni sperimentali ai sistemi su scala produttiva. La ricerca e lo sviluppo del settore indicano diverse tendenze emergenti, tra cui:

  • Recupero agentico
  • Architetture di recupero ibride
  • Sistemi di conoscenza in tempo reale
  • RAG multimodale e basata sul ragionamento

Recupero agentico 

I primi sistemi RAG seguivano pipeline fisse: recupera, aumenta, genera. I sistemi emergenti stanno introducendo comportamenti più dinamici.

Il recupero tramite agente consente ai modelli di decidere cosa, quando e come recuperare le informazioni. Invece di un singolo passaggio di recupero, i sistemi possono eseguire più azioni di recupero, affinare le query o richiedere ulteriore contesto durante la generazione.

Ricerche recenti sugli agenti AI suggeriscono che questo approccio può migliorare le prestazioni in compiti complessi e a più fasi, in particolare quelli che richiedono ragionamento iterativo o esplorazione.⁴

Architetture di recupero ibride

Sebbene la ricerca vettoriale rimanga fondamentale, viene sempre più combinata con la ricerca per parole chiave, il filtraggio dei metadati e, in alcuni casi, il recupero basato su grafi (GraphRAG). Questo coordinamento consente ai sistemi di catturare sia il significato semantico che le relazioni strutturate, migliorando la precisione e la capacità di memorizzazione in ambienti complessi.

Sistemi di conoscenza in tempo reale

I sistemi RAG si stanno evolvendo verso pipeline in tempo reale che inseriscono e aggiornano continuamente le informazioni, riducendo il divario tra la creazione e la disponibilità dei dati e permettendo ai sistemi di rispondere ai cambiamenti man mano che accadono.

In ambienti come i mercati finanziari o il monitoraggio operativo, questa funzionalità sta diventando essenziale. I progressi nello streaming dei dati e nell'indicizzazione incrementale stanno consentendo ai database vettoriali di aggiornare gli embedding senza una rielaborazione completa.

RAG multimodale e guidata dal ragionamento

La RAG si sta espandendo oltre il testo per incorporare immagini, audio e dati strutturati, permettendo ai modelli di recuperare e ragionare attraverso molteplici modalità.

Allo stesso tempo, la ricerca sulle RAG basate sul ragionamento sta migliorando il modo in cui i modelli sintetizzano le informazioni recuperate, passando dal semplice recupero a workflow di ragionamento più strutturati e in più fasi.

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

  1. Esplora le soluzioni di gestione dei dati
  2. Scopri watsonx.data