Confronto fra RAG e messa a punto

Scie di semafori vicino al Big Ben e al Palazzo del Parlamento sullo sfondo al tramonto, Londra, Regno Unito.

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Confronto fra RAG e messa a punto

Retrieval augmented generation (RAG) e messa a punto sono due metodi che le aziende possono utilizzare per ottenere più valore dai modelli linguistici di grandi dimensioni(LLM). Entrambi funzionano adattando l'LLM ai casi d'uso specifici, ma le metodologie sottostanti differiscono in modo significativo.

Sebbene l'AI generativa abbia fatto molta strada dalla sua nascita, il compito di generare risposte automatiche in tempo reale alle domande degli utenti è ancora una sfida significativa. Anche se le aziende si affrettano a incorporare la gen AI nei loro processi per ridurre i costi, semplificare i workflow e restare al passo con la concorrenza, spesso non riescono a far sì che i loro chatbot e altri modelli generino risposte accurate in modo affidabile.

Qual è la differenza tra RAG e messa a punto?

La differenza tra RAG e messa a punto è che la RAG aumenta un modello di elaborazione del linguaggio naturale (NLP) collegandolo al database proprietario di un'organizzazione, mentre la messa a punto ottimizza i modelli di deep learning per attività specifiche del dominio. RAG e messa a punto hanno lo stesso risultato previsto: migliorare le prestazioni di un modello per massimizzare il valore per l'azienda che lo utilizza.

La RAG utilizza i dati interni di un'organizzazione per aumentare la progettazione tempestiva, mentre la messa a punto riqualifica un modello su una serie mirata di dati esterni per migliorare le prestazioni.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché RAG e messa a punto sono importanti?

La RAG collega un LLM ad archivi di dati privati aggiornati che altrimenti sarebbero inaccessibili. I modelli RAG possono fornire risposte più accurate con l'aggiunta del contesto dei dati interni di quanto sarebbero altrimenti in grado di fare senza di essi.

Quando applica il suo addestramento con dati specifici del dominio, un modello ottimizzato in genere supera il modello di base corrispondente, come nel caso GPT-3 o GPT-4. L'LLM ottimizzato ha una migliore comprensione del dominio specifico e della sua terminologia, cosa che gli permette di generare risposte accurate.

Senza l'accesso continuo a nuovi dati, i modelli linguistici di grandi dimensioni diventano stagnanti. I moderni LLM sono grandi reti neurali che richiedono enormi set di dati e risorse computazionali per l'addestramento. Anche i maggiori fornitori di LLM, come Meta, Microsoft e OpenAI, riqualificano periodicamente i loro modelli, il che rende qualsiasi LLM quasi istantaneamente obsoleto nel momento in cui viene rilasciato.

Quando i modelli non possono apprendere dai nuovi dati, spesso allucinano o confabulano: un fenomeno che si verifica quando i modelli di AI di generazione "inventano" risposte a domande a cui non sanno rispondere in modo certo. I modelli di AI generativa utilizzano algoritmi statistici complessi per prevedere le risposte alle domande degli utenti. Se un utente chiede qualcosa che l'AI non è in grado di trovare facilmente all'interno del suo set di dati di addestramento, il meglio che può fare è tirare a indovinare.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Che cos'è la retrieval augmented generation (RAG)?

RAG è un metodo di ottimizzazione degli LLM introdotto da Meta AI in un documento del 2020 intitolato "Retrieval-Augmented Generation for Knowledge-Intensive Tasks".[1] È un framework di architettura dei dati che collega un LLM ai dati proprietari di un'organizzazione, spesso archiviati in data lake house. Queste vaste piattaforme di dati sono dinamiche e contengono tutti i dati che si muovono all'interno dell'organizzazione attraverso tutti i punti di contatto, sia interni che esterni.

Come funziona la RAG?

La retrieval augmented generation funziona localizzando le informazioni nelle fonti di dati interne pertinenti alla query dell'utente, quindi utilizzando tali dati per generare risposte più accurate. Un meccanismo di "recupero" dei dati viene aggiunto per "aumentare" l'LLM aiutandolo a "generare" risposte più pertinenti.

I modelli RAG generano risposte attraverso un processo suddiviso in quattro passaggi:

  1. Query: un utente invia una query che inizializza il sistema RAG.

  2. Recupero delle informazioni: algoritmi complessi setacciano le knowledge base dell'organizzazione alla ricerca di informazioni rilevanti.

  3. Integrazione: i dati recuperati vengono combinati con la query dell'utente e forniti al modello RAG per la risposta. A questo punto, l'LLM non ha elaborato la query.

  4. Risposta: unendo i dati recuperati con il proprio addestramento e le conoscenze archiviate, l'LLM genera una risposta contestualmente accurata.

Nella ricerca tra i documenti interni, i sistemi RAG utilizzano la ricerca semantica. I database vettoriali organizzano i dati per somiglianza, consentendo così ricerche per significato piuttosto che per parola chiave. Le tecniche di ricerca semantica consentono agli algoritmi RAG di raggiungere le parole chiave precedenti all'intento di una query e di restituire i dati più rilevanti.

I sistemi RAG richiedono un'ampia costruzione e manutenzione dell'architettura dei dati. I data engineers devono creare le pipeline di dati necessarie per collegare i data lakehouse della loro organizzazione con l'LLM.

Per creare una metafora che descriva la RAG, immaginiamo un modello di gen AI come un cuoco dilettante. Conosce le basi della cucina, ma non ha la conoscenza esperta (cioè il database proprietario di un'organizzazione) di uno chef formato in una particolare cucina. La RAG è come dare a un cuoco amatoriale un libro di ricette di quella specifica cucina. Combinando la sua conoscenza generale con le ricette del libro, il nostro cuoco potrà creare facilmente i suoi piatti preferiti specifici per quella cucina.

Il processo di recupero dei dati RAG

Per utilizzare la RAG in modo efficace, i data engineer devono creare sistemi di data storage e pipeline che soddisfino una serie di criteri importanti.

Data storage aziendale

Per migliorare le funzioni del sistema RAG e consentire il recupero dei dati in tempo reale, i dati devono essere meticolosamente organizzati e mantenuti. I metadati aggiornati e la ridondanza minima aiutano a garantire un'esecuzione efficace delle query.

Storage dei documenti

La suddivisione di dati non strutturati, come i documenti, in parti più piccole può facilitare un recupero più efficace. Questo "chunking" (suddivisione in blocchi) consente ai sistemi RAG di restituire dati più accurati riducendo al contempo i costi, perché solo la parte più rilevante del documento verrà inclusa nel prompt dell'LLM.

Successivamente, i blocchi vengono incorporati in un database vettoriale mediante un processo che converte il testo in numeri.

Protezione dei dati

Le pipeline di dati devono includere limitazioni di sicurezza per impedire ai dipendenti di accedere ai dati al di fuori dell'ambito dei rispettivi ruoli. E, sulla scia delle leggi sulla privacy più avanzate, come il GDPR dell'UE, le organizzazioni devono applicare rigorose misure di protezione a tutti i dati interni. Le informazioni di identificazione personale (PII) non devono mai essere rese disponibili a utenti non autorizzati.

Messa a punto dei prompt

Il sistema RAG combina la query dell'utente con i dati di origine per creare un prompt su misura per l'LLM. Un continuo processo di messa a punto dei prompt, facilitato da altri modelli di apprendimento automatico, può rafforzare nel tempo la capacità del sistema RAG di rispondere alle domande.

Che cos'è la messa a punto?

La messa a punto è il processo di riqualificazione di un modello preaddestrato su un set di dati più piccolo e mirato per fornirgli conoscenze specifiche del dominio. Il modello regola quindi i suoi parametri, le linee guida che ne regolano il comportamento, e i suoi incorporamenti per adattarsi meglio al set di dati specifico.

Come funziona la messa a punto?

La messa a punto funziona esponendo un modello a un set di dati di esempi etichettati. Il modello migliora l'addestramento iniziale aggiornando i pesi del modello in base ai nuovi dati. La messa a punto è un metodo di apprendimento supervisionato, il che significa che i dati utilizzati nella formazione sono organizzati ed etichettati. Al contrario, la maggior parte dei modelli di base è sottoposta a un apprendimento non supervisionato in cui i dati non sono ordinati: è il modello a doverli classificare autonomamente.

Tornando sulla metafora del cuoco amatoriale, la messa a punto è un corso di una cucina specifica. Prima di seguirlo, il nostro cuoco ha una conoscenza generale delle basi della cucina. Ma, dopo aver seguito una formazione culinaria e acquisito conoscenze specifiche del settore, sarà molto più capace nella cottura di quel tipo di cibo.

Confronto fra messa a punto completa e messa a punto efficiente dei parametri

I modelli possono essere completamente ottimizzati, aggiornando tutti i parametri, oppure aggiornando solo i parametri più rilevanti. Quest'ultimo processo è noto come PEFT (Parameter-Efficient Fine-Tuning, cioè messa a punto efficiente dei parametri) ed eccelle nel rendere i modelli più efficaci in un determinato dominio, mantenendo bassi i costi di addestramento.

La messa a punto di un modello richiede un'elaborazione intensiva e GPU più potenti eseguite in tandem, per non parlare della memoria per archiviare l'LLM stesso. Il processo PEFT consente agli utenti di LLM di riqualificare i propri modelli su configurazioni hardware più semplici, restituendo aggiornamenti delle prestazioni comparabili nel caso d'uso previsto del modello, come l'assistenza clienti o l'analisi del sentiment. La messa a punto eccelle soprattutto nell'aiutare i modelli a superare i bias, cioè il divario tra le previsioni del modello e i risultati effettivi del mondo reale.

Confronto fra messa a punto e pre-addestramento continuo

Il pre-addestramento avviene all'inizio del processo di formazione. I pesi o i parametri del modello vengono inizializzati in modo casuale e il modello inizia l'addestramento sul set di dati iniziale. Il pre-addestramento continuo introduce un modello addestrato in un nuovo set di dati non etichettati, in una pratica nota come transfer learning. Il modello preaddestrato "trasferisce" ciò che ha appreso finora in nuove informazioni esterne.

La messa a punto, invece, utilizza dati etichettati per affinare le prestazioni di un modello in un caso d'uso selezionato. È particolarmente adatta per nell'affinare le competenze di un modello in attività specifiche, mentre il pre-addestramento continuo può approfondire le competenze di dominio di un modello.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina