Cos'è la personalizzazione LLM?

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Cos'è la personalizzazione LLM?

La personalizzazione LLM, o personalizzazione del modello linguistico di grandi dimensioni, è il processo di adattamento di un LLM pre-addestrato a compiti specifici. Il processo di personalizzazione LLM prevede la selezione di un modello pre-addestrato, noto anche come foundation model, e quindi l'adattamento del modello al caso d'uso previsto.

Il workflow della personalizzazione LLM

Il processo di creazione di un LLM personalizzato è studiato per applicare modelli generalizzati a contesti più specifici. Sebbene siano disponibili diversi metodi di personalizzazione LLM, il processo generale tende a seguire una serie di passaggi simili.

  1. Preparazione dei dati: le prestazioni ottimali del modello si basano su dati di addestramento efficaci. I creatori di modelli e i data scientist devono raccogliere e assemblare un set di dati di addestramento specifico per il dominio, pertinente allo scopo previsto per il modello. Con una knowledge base di dati di alta qualità, è più probabile che le risposte del modello siano accurate e utili.
     

  2. Selezione del modello: l'elenco degli LLM è tanto numeroso quanto vario. I modelli AI variano in termini di dimensioni, efficacia, uso delle risorse computazionali e architettura, tutti fattori che influiscono sulle prestazioni. La scelta del modello giusto richiede una comprensione degli obiettivi e dei limiti del progetto di machine learning.
     

  3. Personalizzazione del modello: qui, gli specialisti del machine learning trasformano il foundation model in uno strumento specializzato. L'output del modello sarà adattato a specifiche attività a valle. Gli sviluppatori devono comprendere il funzionamento del foundation model e il metodo di personalizzazione scelto per ottimizzare con successo il comportamento del modello.
     

  4. Iterazione: gli algoritmi di ML offrono i migliori risultati se addestrati con processi dettagliati, piuttosto che apportando enormi modifiche. Gli sviluppatori possono misurare l'effetto della tecnica di personalizzazione in ogni passaggio e utilizzare tali risultati per informare l'iterazione successiva.
     

  5. Test: dopo avere completato l'addestramento, ma prima dell'uso nel mondo reale, il modello viene testato per verificare l'affidabilità delle prestazioni. Gli sviluppatori si assicurano che i loro adattamenti siano efficaci e che il modello applichi le nuove conoscenze specifiche, ottenute senza subire un oblio catastrofico.
     

  6. Implementazione del modello: il modello personalizzato viene implementato nel suo ambiente di produzione, come un'applicazione basata su AI o un'API, e viene reso disponibile per casi d'uso specifici nel mondo reale.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Tecniche di personalizzazione LLM

A seconda del caso d'uso e dell'output desiderato, gli sviluppatori e gli specialisti di machine learning scelgono tra una gamma di metodi di personalizzazione LLM. Tutti i tipi di personalizzazione LLM possono modellare le prestazioni di un modello di AI generativa (gen AI) a specifiche attività a valle.

Le tecniche di personalizzazione LLM includono:

Retrieval-augmented generation (RAG)

La retrieval-augmented generation (RAG) collega un LLM con una fonte di dati esterna per espandere la sua base di conoscenze. Quando un utente invia una richiesta, il sistema RAG cerca nel database associato le informazioni pertinenti, quindi le combina con la query per fornire all'LLM più contesto durante la generazione di una risposta.

La RAG utilizza gli embedding per trasformare un database, un codice sorgente o altre informazioni in un database vettoriale ricercabile. Gli embedding tracciano matematicamente ogni punto dati in uno spazio vettoriale tridimensionale. Per trovare dati pertinenti, il modello di recupero delle informazioni in un sistema RAG converte le richieste degli utenti in embedding e individua embedding simili nel database vettoriale.

I sistemi RAG seguono tipicamente la stessa sequenza standard:

  1. Prompt: l'utente invia un prompt all'interfaccia utente, ad esempio un chatbot basato su AI.
     

  2. Esecuzione di query: un modello di recupero delle informazioni converte il prompt in un embedding e interroga il database per trovare dati simili.
     

  3. Recupero: il modello di recupero acquisisce i dati pertinenti dal database.
     

  4. Generazione: il sistema RAG combina i dati recuperati con la richiesta dell'utente e li invia all'LLM, il quale genera una risposta.
     

  5. Consegna: il sistema RAG restituisce all'utente la risposta generata.

La RAG prende il nome dal modo in cui i sistemi RAG recuperano i dati rilevanti e li utilizzano per migliorare la risposta generata dall'LLM. I sistemi RAG più complessi introducono componenti aggiuntivi per perfezionare il processo e migliorare ulteriormente la qualità della risposta.

Benefici della RAG

Concedere all'LLM l'accesso alle conoscenze specifiche del dominio gli consente di incorporare quei dati nel suo processo di generazione delle risposte. Questo aumenta l'accuratezza e l'affidabilità delle soluzioni AI senza un investimento troppo significativo, soprattutto se i dati esterni sono già disponibili e pronti per l'utilizzo del machine learning.

Ad esempio, un modello RAG progettato per rispondere a domande può dare risposte migliori quando è in grado di trovare le risposte corrette nella sua knowledge base collegata.

L'uso della RAG con modelli più piccoli può aiutarli a ottenere prestazioni di livello superiore. I modelli linguistici di piccole dimensioni (SLM) offrono requisiti computazionali inferiori, tempi di addestramento più rapidi e minore latenza nell'inferenza. La creazione di un sistema RAG attorno a un SLM preserva questi benefici, attingendo al contempo alla maggiore precisione specifica del contesto offerta dalla RAG.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Messa a punto

La messa a punto di un LLM comporta l'esecuzione di regolazioni iterative delle impostazioni interne che ne guidano il comportamento. Queste impostazioni sono note come pesi o parametri del modello e controllano il modo in cui il modello elabora e valuta i dati.

Durante l'addestramento, l'algoritmo di apprendimento di un modello regola i parametri fino a raggiungere le prestazioni ottimali. A quel punto, il processo di addestramento si considera concluso con successo.

Gli LLM avanzati, in particolare trasformatori come GPT di OpenAI e Llama 2 di Meta, possono avere miliardi di parametri. Poiché questi modelli sono così grandi, la messa a punto completa è spesso proibitiva e richiede molto tempo.

Metodi di messa a punto più dettagliati regolano alcuni parametri del modello o ne aggiungono di nuovi con l'obiettivo sia di preservarne le prestazioni di addestramento ,sia di aumentare la competenza in attività specifiche.

Tra i metodi di messa a punto più degni di nota figurano:

Parameter-efficient fine-tuning (PEFT)

Il PEFT congela la maggior parte dei parametri di un modello pre-addestrato e si concentra sulla regolazione di quelli più rilevanti per la nuova attività. In tal modo, consuma molte meno risorse computazionali rispetto a una messa a punto completa. Il PEFT è un campo ad ampio raggio con molte implementazioni.

Apprendimento per trasferimento

L'apprendimento per trasferimento utilizza le conoscenze di un modello pre-addestrato per nuove attività, applicando ciò che già conosce in un nuovo contesto. Funziona meglio quando la nuova attività è correlata all'attività originale, ad esempio quando si utilizza un classificatore per riconoscere e classificare nuove categorie o tipi di oggetti.

In questo esempio, il tipo di apprendimento per trasferimento applicato è noto come apprendimento multitasking, dove un modello viene messo a punto con più attività contemporaneamente. In questo caso, queste nuove attività sono il riconoscimento e la classificazione degli oggetti.

Low-rank adaptation (LoRA)

La Low-rank adaptation (LoRa) è un approccio modulare alla messa a punto che aggiunge parametri supplementari a un modello pre-addestrato. Il metodo LoRA congela i parametri del modello pre-addestrato e aggiunge un supplemento noto come matrice di basso rango che adatta le risposte del modello affinché corrispondano ai requisiti di un caso d'uso o di un'attività specifici.

Il metodo LoRa è paragonabile a un insieme di cappelli magici che consentono a chi li indossa di eseguire l'abilità associata a esso. Sfoggia il cappello magico da chef e cucina un pasto a cinque stelle. Indossa il caschetto magico e costruisci una casa. Metti il casco magico da motociclista e vinci il TT dell'Isola di Man. Indossa il berretto magico da baseball e segna il punto decisivo per la partita.

Apprendimento per rinforzo con feedback umano (RLHF)

L'apprendimento per rinforzo con feedback umano (RLHF) utilizza un modello di ricompensa collaborativo per mettere a punto un modello pre-addestrato per attività complesse e soggettive. Un modello di ML non può giudicare se un testo è evocativo, ma gli esseri umani lo possono fare, e questi esseri umani possono insegnare a un modello a imitare le loro preferenze.

Con l'RLHF, gli esseri umani addestrano un modello di ricompensa per la nuova attività. Il compito del modello di ricompensa è quello di prevedere con successo come un essere umano reagirebbe a un dato input. Mentre l'addestramento del modello standard penalizza gli errori, l'addestramento con ricompensa incentiva le buone prestazioni.

Il modello di ricompensa insegna quindi a sua volta al foundation model come comportarsi, in base alle preferenze degli addestratori umani. Una volta addestrato il modello di ricompensa, è possibile addestrare il foundation model senza la partecipazione di un essere umano (HITL).

Come avviene in tutti i tipi di machine learning, il modello non pensa in modo critico, o addirittura non pensa affatto. Piuttosto, sceglie matematicamente il risultato che ha più probabilità di corrispondere alle preferenze dei suoi addestratori umani.

Continual fine-tuning (CFT)

Il fine-tuning continuo (CFT) è un tipo di apprendimento continuo che adatta in sequenza un modello a nuovi compiti. Utilizzando l'ottimizzazione delle istruzioni, ovvero l'addestramento di un modello utilizzando coppie etichettate di input di istruzioni e dei relativi output, il modello viene adattato a un set di dati più ampio per le attività a valle. Il CFT spesso insegna ai modelli a eseguire lo stesso compito su diverse distribuzioni di dati.

Un rischio legato a tutti i tipi di apprendimento continuo è l'oblio catastrofico, ovvero quando un modello perde la capacità di svolgere compiti più vecchi dopo essere stato adattato a quelli nuovi. Per fortuna, i ricercatori del machine learning (ML) hanno sviluppato diverse tecniche di mitigazione per aiutare gli sviluppatori a evitare un oblio catastrofico nelle iniziative di apprendimento continuo.

Benefici della messa a punto

La messa a punto adatta i modelli ai nuovi casi d'uso evitando i costi dello sviluppo di nuovi modelli. Molti tipi di messa a punto aumentano ulteriormente l'efficienza, regolando solo un piccolo numero di parametri. La messa a punto eccelle anche in situazioni in cui non ci sono abbastanza dati per addestrare un modello da zero.

Prompt engineering

Noto anche come apprendimento contestuale o apprendimento basato sui prompt, il prompt engineering include nel prompt informazioni pertinenti per aiutare l'LLM a generare risposte migliori. Durante l'inferenza, ovvero quando il modello mette in campo un prompt dell'utente, l'utente fornisce in genere istruzioni ed esempi espliciti da seguire.

Ad esempio, a un modello a cui viene chiesto di eseguire un riepilogo del testo può essere utile un prompt che gli mostri come formattare il riepilogo, magari in un elenco puntato. Prompt più completi consentono al modello di restituire il tipo di risposta che l'utente si aspetta di ricevere.

I ricercatori nel campo del deep learning hanno sviluppato molti tipi di tecniche di prompt engineering. Alcuni sviluppi fondamentali includono:

  • Generazione di prompt few-shot: al modello vengono forniti alcuni output di esempio (chiamati shot), in base ai quali modellare le risposte. Il modello può seguire gli esempi e basare la sua risposta sugli shot che l'utente fornisce nel prompt.
     

  • Generazione di prompt chain-of-thought (CoT): il prompt include un metodo di ragionamento passo per passo che il modello deve seguire. Il modello struttura la generazione della risposta in base al CoT fornito dall'utente. La generazione di prompt CoT è una tecnica avanzata che richiede una comprensione pratica di come gli LLM generano risposte.

Vantaggi del prompt engineering

A differenza di molte altre tecniche di personalizzazione LLM, il prompt engineering non richiede attività di codifica o sviluppo aggiuntive. I prompt engineer devono invece conoscere bene il contesto in cui l'LLM deve essere distribuito, in modo da poter creare prompt efficaci e informati.

Se implementato correttamente, il prompt engineering è una tecnica preziosa di elaborazione del linguaggio naturale (NLP) che consente a chiunque, specialmente ai principianti dell'intelligenza artificiale (AI), di personalizzare gli LLM. Oltre alla vasta disponibilità di LLM open source e strumenti di AI open source, il prompt engineering è una porta di accesso al machine learning che premia la sperimentazione, la curiosità e la perseveranza.

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI