Cosa sono i parametri degli LLM?

Autori

Staff writer

Staff Editor, AI Models

IBM Think

Definizione dei parametri degli LLM

I parametri degli LLM sono le impostazioni che controllano e ottimizzano l'output e il comportamento di un modello linguistico di grandi dimensioni (LLM). I parametri addestrabili includono pesi e bias e sono configurati come un modello linguistico di grandi dimensioni (LLM) che apprende dal suo set di dati di addestramento. Gli iperparametri sono esterni al modello, ne guidano il processo di apprendimento, ne determinano la struttura e ne modellano l'output.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Tipi di parametri degli LLM

I parametri degli LLM possono essere ordinati in tre categorie principali:

Pesi

Bias

Iperparametri

Pesi

I pesi sono valori numerici che rappresentano l'importanza che l'LLM assegna a un input specifico. Non tutti gli input vengono trattati allo stesso modo dal modello di intelligenza artificiale (AI) nella generazione delle risposte. Maggiore è il peso di un input, più è rilevante per l'output del modello.

Le impostazioni dei parametri addestrabili, ad esempio i pesi, vengono configurate dall'algoritmo di apprendimento di un modello durante il processo di addestramento. L'algoritmo di apprendimento misura le prestazioni del modello di machine learning (ML) con una funzione di perdita, che tenta di ridurre al minimo gli errori ottimizzando i parametri del modello.

All'interno delle reti neurali, i pesi sono moltiplicatori che determinano la potenza del segnale da un livello neuronale all'altro. I segnali devono soddisfare la soglia di intensità della funzione di attivazione per avanzare attraverso la rete. Di conseguenza, i pesi influenzano direttamente il modo in cui una rete propaga i dati attraverso i suoi livelli.

La retropropagazione viene utilizzata per calcolare in che modo una modifica ai valori di peso influisce sulle prestazioni del modello.

Bias

Come i pesi, anche i bias vengono configurati automaticamente durante l'addestramento dei modelli AI. I bias sono valori costanti aggiunti al valore di un segnale proveniente dai livelli precedenti. I modelli utilizzano i pregiudizi per consentire ai neuroni di attivarsi in condizioni in cui i pesi da soli potrebbero non essere sufficienti per passare attraverso la funzione di attivazione.

I pregiudizi consentono ai modelli di essere più flessibili. I modelli possono imparare dai dati anche se gli input ponderati non raggiungono la soglia di attivazione. Come i pesi, le distorsioni vengono regolate con la retropropagazione durante l'addestramento per ottimizzare le prestazioni del modello e ridurre al minimo gli errori.

La combinazione di pesi e distorsioni negli LLM può portare a modelli con miliardi di parametri. Durante il processo di messa a punto, quando un LLM pre-addestrato viene ulteriormente addestrato per le attività a valle, i suoi pesi e le sue distorsioni vengono ottimizzati con dati di addestramento specifici del dominio.

Iperparametri

Gli iperparametri sono impostazioni esterne che determinano il comportamento, la forma, le dimensioni, l'uso delle risorse e altre caratteristiche di un modello. Il processo di ottimizzazione degli iperparametri o di messa a punto del modello utilizza algoritmi per scoprire la combinazione ottimale di iperparametri per ottenere prestazioni migliori. Insieme alla prompt engineering, l'ottimizzazione degli iperparametri è uno dei principali metodi di personalizzazione dell'LLM.

Gli iperparametri dell'architettura, come il numero di livelli e la dimensione dei livelli nascosti, configurano le dimensioni e la forma di un modello.

Gli iperparametri di addestramento, come la velocità di apprendimento e le dimensioni del batch, guidano il processo di addestramento del modello. Gli iperparametri di addestramento influiscono notevolmente sulle prestazioni del modello e sul fatto che un modello soddisfi o meno i benchmark LLM richiesti.

Gli iperparametri di inferenza, come la temperatura e il campionamento top-p, decidono come un modello di AI generativa produce il suo output.

Iperparametri di memoria e calcolo, come la finestra di contesto, il numero massimo di token in una sequenza di output e sequenze di interruzione, bilanciano le prestazioni e le funzionalità del modello con i requisiti delle risorse.

Gli iperparametri della qualità dell'output, come la penalità di presenza e la penalità di frequenza, aiutano gli LLM a generare output più vari e interessanti controllando al contempo i costi.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli ultimi episodi del podcast

Parametri LLM notevoli

Il numero di parametri nei modelli più grandi (reti neurali complesse come GPT-4 e GPT-3, Llama, Gemini e altri modelli di trasformatori) può raggiungere i miliardi. I modelli più piccoli hanno meno parametri, il che li rende meno esigenti in termini di elaborazione, ma anche meno capaci di discernere modelli e relazioni complessi.

Tutti i parametri aiutano a determinare il modo in cui il modello dà un senso ai dati del mondo reale che incontra. Ma i parametri che influenzano più direttamente l'output del modello sono i suoi iperparametri. Un beneficio dei modelli open source è che le impostazioni dei loro iperparametri sono visibili.

L'ottimizzazione degli iperparametri è un pilastro significativo della personalizzazione LLM: la modifica di un modello per attività specifiche.

Tra gli iperparametri più significativi di un modello ci sono:

Numero di livelli

Finestra contestuale

Temperatura

Top-p (campionamento del nucleo)

Top-k

Numero di token (numero massimo di token)

Tasso di apprendimento

Penalità di frequenza

Penalità di presenza

Sequenza di interruzione

Numero di strati

Il numero di livelli in una rete neurale è un iperparametro cruciale per impostare le dimensioni e la complessità del modello. Le reti neurali sono costituite da strati di neuroni o nodi. Maggiore è il numero di strati tra lo strato di input iniziale e lo strato di output finale, più complesso è il modello.

Ma la complessità non è sempre buona. Un modello che ha troppi livelli per un'attività che non ne ha bisogno può subire un overfitting e sprecare risorse computazionali. Nel frattempo, un modello con livelli insufficienti non riuscirà a catturare i modelli, le relazioni e le distribuzioni in set di dati complessi.

Finestra di contesto

L'iperparametro della finestra di contesto è rilevante per qualsiasi modello costruito sull'architettura trasformativa, come l'LLM open source Llama-2. La finestra di contesto è il numero massimo di token che il modello può mettere in campo mantenendo la coerenza nell'intera sequenza di input.

La finestra di contesto determina anche la durata della conversazione che un modello può mantenere senza perdere traccia dei contenuti precedenti. Finestre di contesto più ampie comportano una maggiore precisione, meno allucinazioni e la possibilità di elaborare documenti più grandi o di avere conversazioni più lunghe.

Tuttavia, le finestre di contesto di grandi dimensioni richiedono anche un livello maggiore di risorse computazionali e possono prolungare il tempo di elaborazione per la generazione delle risposte.

Temperatura

L'iperparametro della temperatura LLM è simile a un quadrante di casualità o creatività. L'aumento della temperatura aumenta la distribuzione di probabilità per le parole successive che appaiono nell'output del modello durante la generazione del testo.

Un'impostazione della temperatura pari a 1 utilizza la distribuzione di probabilità standard per il modello. Temperature superiori a 1 appiattiscono la distribuzione di probabilità, incoraggiando il modello a selezionare una gamma più ampia di token. Al contrario, temperature inferiori a 1 ampliano la distribuzione delle probabilità, rendendo il modello più propenso a selezionare il token successivo più probabile.

Un valore di temperatura più vicino a 1,0, come 0,8, significa che l'LLM diventa più creativo nelle sue risposte, ma con potenzialmente meno prevedibilità. Nel frattempo, una temperatura più bassa di 0,2 produrrà risposte più deterministiche. Un modello a bassa temperatura offre output prevedibili, se stabili. Temperature più elevate, più vicine a 2,0, possono iniziare a produrre output insensati.

Il caso d'uso informa il valore di temperatura ideale per un LLM. Un chatbot progettato per essere divertente e creativo, come ChatGPT, ha bisogno di una temperatura più alta per creare un testo simile a quello umano. Un app di riepilogo testuale in un campo altamente regolamentato come il diritto, lo stato di salute o la finanza richiede il contrario: i riepiloghi testuali generati devono rispettare requisiti rigorosi.

Top-p (campionamento del nucleo)

Come la temperatura, anche il campionamento top-p influisce sulla diversità delle parole negli output di testo generati. Il top-p funziona impostando una soglia di probabilità p per il token successivo in una sequenza di output. Il modello è autorizzato a generare risposte utilizzando token entro il limite di probabilità.

Con il campionamento top-p, i token vengono classificati in base alla probabilità. I token con una maggiore probabilità di apparire successivamente nella sequenza hanno un punteggio più alto, mentre per i token meno probabili vale il contrario. Il modello assembla un gruppo di potenziali token successivi fino a quando il punteggio p cumulativo non raggiunge la soglia impostata, quindi seleziona casualmente un token da quel gruppo.

Soglie p più elevate producono output più diversificati, mentre soglie più basse preservano la precisione e la coerenza.

Differenza tra temperatura e campionamento top-p

La differenza tra temperatura e campionamento top-p è che mentre la temperatura regola la distribuzione di probabilità dei potenziali token, il campionamento top-p limita la selezione dei token a un gruppo finito.

Top-k

L'iperparametro top-k è un'altra impostazione incentrata sulla diversità. Il valore k imposta il limite per il numero di termini che possono essere considerati come i successivi nella sequenza. I termini vengono ordinati in base alla probabilità e i primi termini k vengono scelti come candidati.

Top-p e top-k a confronto

Top-p limita il pool di token fino a un totale di probabilità p impostato, mentre top-k limita il pool ai primi termini k più probabili.

Numero di token (massimo di token)

Il numero di token o l'iperparametro massimo di token imposta un limite massimo per la lunghezza del token di output. I valori numerici dei token più piccoli sono ideali per attività rapide come conversazioni e riepiloghi tramite chatbot, attività che possono essere gestite sia da modelli linguistici di piccole dimensioni che da LLM.

I valori più elevati per il numero di token sono migliori quando sono necessari output più lunghi, ad esempio quando si tenta di utilizzare un LLM per il vibe coding.

Tasso di apprendimento

La velocità di apprendimento è un iperparametro critico che influisce sulla velocità con cui il modello regola i pesi e i bias durante l'addestramento e la messa a punto. Questi processi utilizzano spesso un algoritmo di apprendimento noto come discesa del gradiente.

Un algoritmo di discesa del gradiente cerca di minimizzare una funzione di perdita che misura l'errore delle previsioni di un modello. A ogni iterazione di addestramento, l'algoritmo aggiorna i pesi del modello per migliorare idealmente le prestazioni con il batch di dati successivo.

Il tasso di apprendimento controlla il grado di aggiornamento dei pesi. Un tasso di apprendimento più elevato porta a maggiori aumenti, accelerando l'addestramento con il rischio di superare il minimo locale. Tassi di apprendimento più bassi apportano modifiche più sottili ma richiedono più iterazioni per raggiungere il minimo e possono persino rallentare.

Un metodo efficace per gestire la velocità di apprendimento consiste nell'avviare l'addestramento con un valore più elevato e ridurre la velocità di apprendimento man mano che il modello si avvicina a un minimo locale della sua funzione di perdita.

Penalità di frequenza

L'iperparametro di penalizzazione della frequenza aiuta a evitare che i modelli utilizzino eccessivamente i termini all'interno degli stessi output. Una volta che un termine appare nell'output, la penalità di frequenza dissuade il modello dal riutilizzarlo di nuovo in un secondo momento.

I modelli assegnano punteggi a ciascun token noto come logit e utilizzano i logit per calcolare i valori di probabilità. Le penalità di frequenza abbassano linearmente il valore logit di un termine ogni volta che viene ripetuto, rendendo progressivamente meno probabile che venga scelto la volta successiva. Valori di penalità di frequenza più elevati riducono il logit in misura maggiore per applicazione.

Poiché il modello è dissuaso dal ripetere termini, deve invece scegliere altri termini, con conseguente scelte di parole più diverse nel testo generato.

Penalità di ripetizione

La penalità di ripetizione è simile alla penalità di frequenza, tranne per il fatto che è esponenziale piuttosto che lineare. La penalità di ripetizione abbassa il logit di un termine in modo esponenziale ogni volta che viene riutilizzato, rendendolo un disincentivo più forte della penalità di frequenza. Per questo motivo, si consigliano valori di penalità di ripetizione più bassi.

Penalità di presenza

La penalità di presenza è un iperparametro correlato che funziona in modo simile alla penalità di frequenza, tranne per il fatto che si applica solo una volta. La penalità di presenza riduce il valore legale di un termine dello stesso importo indipendentemente dalla frequenza con cui quel termine è presente nell'output, purché compaia almeno una volta.

Se il termine orso appare nell'output 10 volte e il termine volpe appare una volta, orso ha una penalità di frequenza più elevata rispetto a volpe. Tuttavia, sia l'orso che la volpe condividono la stessa penalità di presenza.

Sequenza di interruzione

La sequenza di interruzione è una stringa preimpostata di token che, quando appare, fa sì che il modello termini la sequenza di output. Ad esempio, se un modello è progettato per avere un output di una singola frase alla volta, la sequenza di interruzione potrebbe essere un punto.

Le sequenze di interruzione mantengono le risposte concise senza influire sul modo in cui il modello genera l'output fino al punto di interruzione. Poiché troncano le risposte del modello, le sequenze di interruzione aiutano anche a risparmiare sui costi dei token durante la connessione agli LLM tramite API.

Ottimizzazione dei parametri degli LLM

Per ottenere prestazioni elevate è essenziale ottimizzare i parametri interni e addestrabili di un modello, ovvero i suoi pesi e i suoi bias. Una volta che un modello è stato dotato degli iperparametri ottimali, i suoi progettisti hanno a disposizione una serie di metodi per contribuire a modellare i parametri interni degli LLM.

La messa a punto regola i pesi e i bias di un modello per attività specifiche. La messa a punto efficiente dei parametri (PEFT) blocca la maggior parte dei parametri modificando un piccolo sottoinsieme rilevante.

Il transfer learning è un'ampia gamma di tecniche di ottimizzazione dei modelli incentrate tutte sull'utilizzo delle conoscenze precedenti di un modello per migliorare le prestazioni in nuove attività.

La quantizzazione semplifica tutta la matematica all'interno di un modello, rendendolo più piccolo ed efficiente pur rappresentando gli stessi dati.

L'interruzione precoce previene l'overfitting, interrompendo il processo di addestramento quando smette di produrre miglioramenti delle prestazioni degni di nota.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.