Che cos'è la messa a punto del modello?

Vista posteriore dell'ingegnere del suono che manipola il mixer

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è la messa a punto del modello?

La messa a punto del modello ottimizza gli iperparametri di un modello di apprendimento automatico per ottenere le migliori prestazioni di addestramento. Il processo prevede di apportare modifiche fino a trovare il set ottimale di valori degli iperparametri, con conseguente miglioramento della precisione, della qualità della generazione e di altre metriche di prestazioni.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Cosa sono gli iperparametri?

Gli iperparametri sono variabili di configurazione del modello che non possono essere derivate dai dati di addestramento. Queste variabili determinano le caratteristiche principali e il comportamento di un modello. Alcuni iperparametri, come la velocità di apprendimento, controllano il comportamento del modello durante l'addestramento. Altri determinano invece la natura del modello stesso, come un iperparametro che imposta il numero di livelli nelle reti neurali.

I data scientist devono configurare i valori degli iperparametri di un modello di apprendimento automatico (ML) prima di iniziare l'addestramento. La scelta anticipata della corretta combinazione di iperparametri è fondamentale per un addestramento efficace dei modelli di apprendimento automatico (ML).

Iperparametri e parametri di modello a confronto

I parametri del modello, o pesi del modello, sono variabili che i modelli AI scoprono durante l'addestramento. Gli algoritmi AI apprendono le relazioni, i modelli e le distribuzioni sottostanti dei loro set di dati di addestramento, quindi applicano tali risultati a nuovi dati per fare previsioni efficaci.

Man mano che un algoritmo di apprendimento automatico viene addestrato, imposta e aggiorna i suoi parametri. Questi parametri rappresentano quello che un modello apprende dal suo set di dati e cambiano nel tempo con ogni iterazione del suo algoritmo di ottimizzazione.

Perché è importante la messa a punto del modello?

La messa a punto del modello è importante perché i valori degli iperparametri influiscono direttamente sulle prestazioni del modello. Una buona configurazione degli iperparametri porta i modelli ad apprendere meglio durante l'addestramento.

Senza una buona messa a punto, un modello può diventare soggetto a sovradimensionamento, quando si avvicina troppo ai suoi dati di addestramento e non può adattarsi a nuovi set di dati. Altre carenze possono includere un'eccessiva varianza o distorsione del modello.

Ogni algoritmo di apprendimento automatico ha la sua combinazione ottimale di iperparametri, alcuni dei quali influiscono sulle prestazioni più di altri. Limitare la messa a punto di un modello a un set di base degli iperparametri di maggiore impatto può ridurre le richieste di tempo e risorse computazionali.

      Overfitting

      L'overfitting si verifica quando un modello è troppo complesso per i suoi dati di addestramento. I suoi iperparametri creano una rete neurale con troppi livelli o con troppi parametri addestrabili. Con l'overfitting, il modello si adatta troppo strettamente al proprio set di dati di addestramento. Un modello sovradimensionato non può adattarsi ai nuovi dati in quanto non è riuscito a generalizzare dai suoi dati di addestramento.

      Immaginate due studenti in un'aula. Uno studente impara memorizzando i fatti, l'altro comprendendo i concetti alla base degli insegnamenti. Finora, entrambi hanno ottenuto buoni risultati nei test riguardanti il materiale del corso. Ma che cosa succede quando devono applicare quanto appreso a nuovi argomenti?

      Lo studente che sa generalizzare trasferirà con successo quello che ha imparato, mentre lo studente che si affida alla memoria potrebbe avere difficoltà a fare lo stesso. Hanno "adattato" troppo la loro conoscenza alle specifiche del contenuto della classe, senza riuscire a cogliere i principi fondamentali.

      Distorsione

      La distorsione è il divario tra le previsioni di un modello e gli esiti reali del mondo reale. Sebbene la distorsione possa derivare da set di dati di addestramento che presentano difetti, la distorsione deriva anche da una messa a punto non ottimale del modello: il modello non è in grado di apprendere correttamente, anche quando i suoi dati di addestramento sono validi.

      I modelli con elevata distorsione ignorano le sottigliezze dei dati di addestramento e possono non riuscire a generare previsioni accurate durante l'addestramento. Gli algoritmi più semplici, come ad esempio la regressione lineare, sono più inclini a distorsioni elevate in quanto non riescono a catturare relazioni più complesse nei loro dati di addestramento.

      La scelta dell'algoritmo giusto per un'attività specifica è il primo passo per ottenere buone prestazioni, anche prima che inizi l'ottimizzazione del modello.

      Varianza

      La varianza descrive in modo inverso la coerenza delle previsioni di un modello. Una maggiore varianza significa che un modello ha previsioni meno coerenti con dati non visibili, anche se spesso si comportano bene con i set di dati di addestramento. I modelli con varianza elevata soffrono di overfitting: non possono trasferire quello che hanno appreso dai dati di addestramento ai nuovi dati.

      La regolarizzazione è una tecnica che riduce l'overfitting spostando il rapporto distorsione-varianza a favore di una maggiore distorsione. Una buona ottimizzazione del modello gestisce il compromesso tra distorsione e varianza per previsioni ottimali nel mondo reale.

      Mixture of Experts | 12 dicembre, episodio 85

      Decoding AI: Weekly News Roundup

      Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

      Come funziona la messa a punto del modello?

      La messa a punto del modello funziona individuando la configurazione degli iperparametri che determinano il miglior risultato di addestramento. A volte, ad esempio quando si creano modelli più piccoli e più semplici, i data scientist possono configurare manualmente gli iperparametri in anticipo. Ma i trasformatori e altri modelli complessi possono avere migliaia di possibili combinazioni di iperparametri.

      Con così tante opzioni a disposizione, i data scientist possono limitare lo spazio di ricerca degli iperparametri per coprire la parte di potenziali combinazioni che ha maggiori probabilità di produrre risultati ottimali. Possono inoltre utilizzare metodi automatici per scoprire in modo algoritmico gli iperparametri ottimali per il caso d'uso previsto.

        Metodi di messa a punto del modello

        I metodi più comuni di messa a punto dei modelli includono:

        • Ricerca a griglia

        • Ricerca casuale

        • Ottimizzazione bayesiana

        • Hyperband

        Ricerca a griglia

        La ricerca su griglia è il metodo di messa a punto del modello basato sulla "forza bruta". I data scientist creano uno spazio di ricerca costituito da ogni possibile valore di iperparametro. Quindi, l'algoritmo di ricerca a griglia produce tutte le combinazioni di iperparametri disponibili. Il modello viene addestrato e convalidato per ogni combinazione di iperparametri, con il modello con le prestazioni migliori selezionato per l'uso.

        Dal momento che testa tutti i possibili valori degli iperparametri invece di un sottoinsieme più piccolo, la ricerca a griglia è un metodo di messa a punto completo. L'aspetto negativo di questo ambito allargato è che la ricerca a griglia richiede molto tempo e molte risorse.

          Ricerca casuale

          Piuttosto che testare ogni possibile configurazione degli iperparametri, gli algoritmi di ricerca casuale scelgono i valori degli iperparametri da una distribuzione statistica di potenziali opzioni. I data scientist assemblano i valori degli iperparametri più probabili, aumentando le possibilità dell'algoritmo di selezionare un'opzione praticabile.

          La ricerca casuale è più veloce e più facile da implementare rispetto alla ricerca a griglia. Ma dal momento che ogni combinazione non viene testata, non vi è alcuna garanzia che venga trovata la migliore configurazione iperparametrica.

          Ottimizzazione bayesiana

          A differenza delle ricerche casuali e a griglia, l'ottimizzazione bayesiana seleziona i valori degli iperparametri in base ai risultati dei tentativi precedenti. L'algoritmo utilizza i risultati dei test dei valori degli iperparametri precedenti per prevedere i valori che potrebbero portare a risultati migliori.

          L'ottimizzazione bayesiana funziona costruendo un modello probabilistico della funzione obiettivo. Questa funzione surrogata diventa più efficiente nel tempo man mano che i suoi risultati migliorano: evita di allocare risorse a valori di iperparametri con prestazioni inferiori mentre si concentra sulla configurazione ottimale.

          La tecnica di ottimizzazione di un modello basata su cicli di test precedenti è nota come ottimizzazione sequenziale basata su modelli (SMBO).

            Hyperband

            L'iperbanda migliora il workflow di ricerca casuale concentrandosi su configurazioni di iperparametri promettenti e interrompendo al contempo le ricerche meno praticabili. Ad ogni iterazione di test, l'algoritmo dell'iperbanda rimuove la metà dalle prestazioni peggiori di tutte le configurazioni testate.

            L'approccio di "dimezzamento successivo" dell'iperbanda mantiene l'attenzione sulle configurazioni più promettenti fino a quando non viene individuata la migliore dal pool originale di candidati.

            Messa a punto del modello e addestramento del modello a confronto

            Mentre la messa a punto del modello è il processo di scoperta degli iperparametri ottimali, la messa a punto del modello avviene quando a un algoritmo di apprendimento automatico viene insegnato a individuare i modelli nel suo set di dati di addestramento e a fare previsioni accurate su nuovi dati.

            Il processo di addestramento utilizza un algoritmo di ottimizzazione per ridurre al minimo una funzione di perdita, o funzione obiettivo, che misura il divario tra le previsioni di un modello e i valori effettivi. L'obiettivo è individuare la migliore combinazione di pesi e distorsione del modello per il valore più basso possibile della funzione obiettivo. L'algoritmo di ottimizzazione aggiorna periodicamente i pesi di un modello durante l'addestramento.

            La famiglia di algoritmi di ottimizzazione con discesa del gradiente funziona facendo scendere il gradiente della funzione di perdita per scoprirne il valore minimo: il punto in cui il modello è più accurato. Un minimo locale è un valore minimo in un'area specificata, ma potrebbe non essere il minimo globale della funzione, ovvero il valore più basso assoluto.

            Non sempre è necessario individuare il minimo globale della funzione di perdita. Si dice che un modello ha raggiunto la convergenza quando la sua funzione di perdita viene minimizzata con successo.

            Convalida incrociata, test e riaddestramento

            Dopo l'addestramento, i modelli vengono sottoposti a convalida incrociata, verificando i risultati dell'addestramento con un'altra parte dei dati di addestramento. Le previsioni del modello vengono confrontate con i valori effettivi dei dati di convalida. Il modello dalle prestazioni più elevate si sposta quindi alla fase di test, dove le sue previsioni vengono nuovamente esaminate per verificarne l'accuratezza prima dell'implementazione. La convalida incrociata e i test sono fondamentali per la valutazione dei modelli linguistici di grandi dimensioni (LLM).

            La riqualificazione è una parte del ciclo di vita dell'AI MLOps (operazioni di apprendimento automatico) che riqualifica costantemente e autonomamente un modello nel tempo per mantenerlo performante al meglio.

            Messa a punto del modello e affinamento a confronto

            La messa a punto del modello individua i migliori valori degli iperparametri per l'addestramento, mentre la messa a punto fine è il processo di ottimizzazione di un foundation model pre-addestrato per specifiche attività a valle. La messa a punto fine è un tipo di apprendimento per trasferimento, quando l'apprendimento preesistente di un modello viene adattato a nuove attività.

            Con la messa a punto fine, un modello pre-addestrato viene nuovamente addestrato su un set di dati più piccolo e specializzato, pertinente al caso d'uso del modello. Addestrare inizialmente un modello su un piccolo set di dati comporta il rischio di sovrapposizione, ma addestrarlo con un set di dati ampio e generalizzato aiuta ad attenuare tale rischio.

            Esempi di iperparametri

            Sebbene ogni algoritmo disponga di un proprio set di iperparametri, numerosi iperparametri sono condivisi tra algoritmi simili. Gli iperparametri comuni nelle reti neurali che alimentano i modelli linguistici di grandi dimensioni (LLM) includono:

            • Tasso di apprendimento

            • Decadimento del tasso di apprendimento

            • Epochs

            • Dimensione batch

            • Momentum

            • Numero di livelli nascosti

            • Nodi per livello

            • Funzione di attivazione

            Tasso di apprendimento

            Il tasso di apprendimento determina la velocità con cui un modello aggiorna i suoi pesi durante l'allenamento. Un tasso di apprendimento più alto significa che un modello impara più velocemente, ma con il rischio di superare un minimo locale della sua funzione di perdita. Nel frattempo, un tasso di apprendimento basso può portare a tempi di formazione eccessivi, aumentando la richiesta di risorse e costi.

            Decadimento del tasso di apprendimento

            Il decadimento del tasso di apprendimento è un iperparametro che rallenta il tasso di apprendimento di un algoritmo di apprendimento automatico (ML) nel tempo. Il modello aggiorna i propri parametri più rapidamente all'inizio, poi con maggiori sfumature man mano che si avvicina alla convergenza, riducendo il rischio di superamento.

            Epochs

            L'addestramento dei modelli prevede l'esposizione ripetuta di un modello ai suoi dati di addestramento in modo che aggiorni iterativamente i suoi pesi. Per epoca si intende quando un modello elabora l'intero set di dati di addestramento e l'iperparametro dell'epoca imposta il numero di epoche che compongono il processo di addestramento.xxx

            Dimensione batch

            Gli algoritmi di apprendimento automatico non elaborano l'intero set di dati di addestramento in ogni iterazione dell'algoritmo di ottimizzazione. I dati di allenamento vengono invece separati in batch, con i pesi del modello che vengono aggiornati dopo ogni batch. La dimensione del batch determina il numero di campioni di dati in ogni batch.

            Momentum

            Lo slancio è la propensione di un algoritmo di apprendimento automatico (ML) ad aggiornare i propri pesi nella stessa direzione rispetto agli aggiornamenti precedenti. Si può pensare allo slancio come alla convinzione di un algoritmo nel suo apprendimento. Uno slancio elevato porta un algoritmo a una convergenza più rapida con il rischio di bypassare minimi locali significativi. Nel frattempo, uno slancio ridotto può far sì che un algoritmo esitando nei suoi aggiornamenti, bloccandone il progresso.

            Numero di livelli nascosti

            Le reti neurali modellano la struttura del cervello umano e contengono più strati di neuroni o nodi interconnessi. Questa complessità è quello che consente ai modelli avanzati, come i modelli di trasformatori, di gestire attività generative complesse. Meno livelli rendono il modello più snello, ma più livelli aprono la strada a compiti più complessi.

            Nodi per livello

            Ogni livello di una rete neurale ha un numero predeterminato di nodi. Con l'aumento dell'ampiezza dei livelli, aumenta anche la capacità del modello di gestire relazioni complesse tra i punti dati, ma al costo di maggiori requisiti computazionali.

            Funzione di attivazione

            Una funzione di attivazione è un iperparametro che garantisce ai modelli la capacità di creare confini non lineari tra gruppi di dati. Quando è impossibile classificare con precisione i punti dati in gruppi separati da una linea retta, l'attivazione offre la flessibilità necessaria per divisioni più complesse.

            Una rete neurale senza funzione di attivazione è fondamentalmente un modello di regressione lineare.

            Soluzioni correlate
            IBM® watsonx.ai

            Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

            Esplora watsonx.ai
            Soluzioni di intelligenza artificiale

            Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

            Esplora le soluzioni AI
            Consulenza e servizi per l'intelligenza artificiale (AI)

            I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

            Esplora i servizi AI
            Fasi successive

            Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

            Esplora watsonx.ai Prenota una demo live