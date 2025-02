Il pattern RAG, mostrato nel diagramma seguente, è composto da due parti: incorporamento dei dati durante la fase di compilazione e richiesta all'utente (o restituzione dei risultati) durante il tempo di esecuzione.

Un ingegnere AI prepara i dati del cliente (ad esempio, manuali delle procedure, documentazione del prodotto, ticket dell'help desk, ecc.) durante la pre-elaborazione dei dati. I dati del cliente vengono trasformati e/o arricchiti per renderli adatti all'ampliamento del modello. Le trasformazioni possono includere semplici conversioni di formato, come la conversione di documenti PDF in testo, o trasformazioni più complesse come la traduzione di strutture di tabelle complesse in istruzioni di tipo if-then. L'arricchimento può includere l'espansione di abbreviazioni comuni, l'aggiunta di metadati come le informazioni sulla valuta, e altre aggiunte per migliorare la pertinenza dei risultati di ricerca.

Un modello di incorporamento viene utilizzato per convertire i dati di origine in una serie di vettori che rappresentano le parole nei dati del client. Gli incorporamenti facilitano l'apprendimento automatico su input di grandi dimensioni come vettori sparsi che rappresentano parole. Gli incorporamenti sono memorizzati come passaggi (chiamati chunk) di dati del client, si pensi a sottosezioni o paragrafi, per facilitare la ricerca delle informazioni.

Gli incorporamenti generati vengono memorizzati in un database vettoriale. Nell'architettura RAG può essere utilizzata qualsiasi fonte di dati che supporti le query "fuzzy" che restituiscono risultati in base alla probabile pertinenza, ad esempio watsonx Discovery, ma l'implementazione più comune utilizza un database vettoriale come Milvus, FAISS o Chroma.



Il sistema è ora pronto per essere usato degli utenti finali.



Gli utenti finali interagiscono con un'applicazione abilitata GenAI e inseriscono una query.

L'applicazione GenAI riceve la query ed esegue una ricerca nel database vettoriale per ottenere il maggior numero (lo chiamiamo top K) di informazioni che corrispondono maggiormente alla query dell'utente. Per esempio, se la domanda dell'utente è "Qual è il limite di prelievo giornaliero sul conto MaxSavers", la ricerca può restituire passaggi come "Il conto MaxSavers è...", "I limiti di prelievo giornalieri sono...", e "... limiti dell'account... ".

I passaggi principali, insieme a un prompt reso accurato per l'applicazione specifica, vengono inviati all'LLM.