Tag

Che cos'è la messa a punto del modello?

Vista posteriore dell'ingegnere del suono che manipola il mixer

Autori

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Che cos'è la messa a punto del modello?

La messa a punto del modello ottimizza gli iperparametri di un modello di apprendimento automatico per ottenere le migliori prestazioni di addestramento. Il processo prevede di apportare modifiche fino a trovare il set ottimale di valori degli iperparametri, con conseguente miglioramento della precisione, della qualità della generazione e di altre metriche di prestazioni.

Dal momento che la messa a punto del modello identifica gli iperparametri ottimali di un modello, è anche nota come ottimizzazione degli iperparametri o, in alternativa, messa a punto degli iperparametri.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Cosa sono gli iperparametri?

Gli iperparametri sono variabili di configurazione del modello che non possono essere derivate dai dati di addestramento. Queste variabili determinano le caratteristiche principali e il comportamento di un modello. Alcuni iperparametri, come la velocità di apprendimento, controllano il comportamento del modello durante l'addestramento. Altri determinano invece la natura del modello stesso, come un iperparametro che imposta il numero di livelli nelle reti neurali.

I data scientist devono configurare i valori degli iperparametri di un modello di apprendimento automatico (ML) prima di iniziare l'addestramento. La scelta anticipata della corretta combinazione di iperparametri è fondamentale per un addestramento efficace dei modelli di apprendimento automatico (ML).

Iperparametri e parametri di modello a confronto

I parametri del modello, o pesi del modello, sono variabili che i modelli AI scoprono durante l'addestramento. Gli algoritmi AI apprendono le relazioni, i modelli e le distribuzioni sottostanti dei loro set di dati di addestramento, quindi applicano tali risultati a nuovi dati per fare previsioni efficaci.

Man mano che un algoritmo di apprendimento automatico viene addestrato, imposta e aggiorna i suoi parametri. Questi parametri rappresentano quello che un modello apprende dal suo set di dati e cambiano nel tempo con ogni iterazione del suo algoritmo di ottimizzazione.

Perché è importante la messa a punto del modello?

La messa a punto del modello è importante perché i valori degli iperparametri influiscono direttamente sulle prestazioni del modello. Una buona configurazione degli iperparametri porta i modelli ad apprendere meglio durante l'addestramento.

Senza una buona messa a punto, un modello può diventare soggetto a sovradimensionamento, quando si avvicina troppo ai suoi dati di addestramento e non può adattarsi a nuovi set di dati. Altre carenze possono includere un'eccessiva varianza o distorsione del modello.

Ogni algoritmo di apprendimento automatico ha la sua combinazione ottimale di iperparametri, alcuni dei quali influiscono sulle prestazioni più di altri. Limitare la messa a punto di un modello a un set di base degli iperparametri di maggiore impatto può ridurre le richieste di tempo e risorse computazionali.

Overfitting

L'overfitting si verifica quando un modello è troppo complesso per i suoi dati di addestramento. I suoi iperparametri creano una rete neurale con troppi livelli o con troppi parametri addestrabili. Con l'overfitting, il modello si adatta troppo strettamente al proprio set di dati di addestramento. Un modello sovradimensionato non può adattarsi ai nuovi dati in quanto non è riuscito a generalizzare dai suoi dati di addestramento.

Immaginate due studenti in un'aula. Uno studente impara memorizzando i fatti, l'altro comprendendo i concetti alla base degli insegnamenti. Finora, entrambi hanno ottenuto buoni risultati nei test riguardanti il materiale del corso. Ma che cosa succede quando devono applicare quanto appreso a nuovi argomenti?

Lo studente che sa generalizzare trasferirà con successo quello che ha imparato, mentre lo studente che si affida alla memoria potrebbe avere difficoltà a fare lo stesso. Hanno "adattato" troppo la loro conoscenza alle specifiche del contenuto della classe, senza riuscire a cogliere i principi fondamentali.

Distorsione

La distorsione è il divario tra le previsioni di un modello e gli esiti reali del mondo reale. Sebbene la distorsione possa derivare da set di dati di addestramento che presentano difetti, la distorsione deriva anche da una messa a punto non ottimale del modello: il modello non è in grado di apprendere correttamente, anche quando i suoi dati di addestramento sono validi.

I modelli con elevata distorsione ignorano le sottigliezze dei dati di addestramento e possono non riuscire a generare previsioni accurate durante l'addestramento. Gli algoritmi più semplici, come ad esempio la regressione lineare, sono più inclini a distorsioni elevate in quanto non riescono a catturare relazioni più complesse nei loro dati di addestramento.

La scelta dell'algoritmo giusto per un'attività specifica è il primo passo per ottenere buone prestazioni, anche prima che inizi l'ottimizzazione del modello.

Varianza

La varianza descrive in modo inverso la coerenza delle previsioni di un modello. Una maggiore varianza significa che un modello ha previsioni meno coerenti con dati non visibili, anche se spesso si comportano bene con i set di dati di addestramento. I modelli con varianza elevata soffrono di overfitting: non possono trasferire quello che hanno appreso dai dati di addestramento ai nuovi dati.

La regolarizzazione è una tecnica che riduce l'overfitting spostando il rapporto distorsione-varianza a favore di una maggiore distorsione. Una buona ottimizzazione del modello gestisce il compromesso tra distorsione e varianza per previsioni ottimali nel mondo reale.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Come funziona la messa a punto del modello?

La messa a punto del modello funziona individuando la configurazione degli iperparametri che determinano il miglior risultato di addestramento. A volte, ad esempio quando si creano modelli più piccoli e più semplici, i data scientist possono configurare manualmente gli iperparametri in anticipo. Ma i trasformatori e altri modelli complessi possono avere migliaia di possibili combinazioni di iperparametri.

Con così tante opzioni a disposizione, i data scientist possono limitare lo spazio di ricerca degli iperparametri per coprire la parte di potenziali combinazioni che ha maggiori probabilità di produrre risultati ottimali. Possono inoltre utilizzare metodi automatici per scoprire in modo algoritmico gli iperparametri ottimali per il caso d'uso previsto.

Metodi di messa a punto del modello

I metodi più comuni di messa a punto dei modelli includono:

Ricerca a griglia
Ricerca casuale
Ottimizzazione bayesiana
Hyperband

Ricerca a griglia

La ricerca su griglia è il metodo di messa a punto del modello basato sulla "forza bruta". I data scientist creano uno spazio di ricerca costituito da ogni possibile valore di iperparametro. Quindi, l'algoritmo di ricerca a griglia produce tutte le combinazioni di iperparametri disponibili. Il modello viene addestrato e convalidato per ogni combinazione di iperparametri, con il modello con le prestazioni migliori selezionato per l'uso.

Dal momento che testa tutti i possibili valori degli iperparametri invece di un sottoinsieme più piccolo, la ricerca a griglia è un metodo di messa a punto completo. L'aspetto negativo di questo ambito allargato è che la ricerca a griglia richiede molto tempo e molte risorse.

Ricerca casuale

Piuttosto che testare ogni possibile configurazione degli iperparametri, gli algoritmi di ricerca casuale scelgono i valori degli iperparametri da una distribuzione statistica di potenziali opzioni. I data scientist assemblano i valori degli iperparametri più probabili, aumentando le possibilità dell'algoritmo di selezionare un'opzione praticabile.

La ricerca casuale è più veloce e più facile da implementare rispetto alla ricerca a griglia. Ma dal momento che ogni combinazione non viene testata, non vi è alcuna garanzia che venga trovata la migliore configurazione iperparametrica.

Ottimizzazione bayesiana

A differenza delle ricerche casuali e a griglia, l'ottimizzazione bayesiana seleziona i valori degli iperparametri in base ai risultati dei tentativi precedenti. L'algoritmo utilizza i risultati dei test dei valori degli iperparametri precedenti per prevedere i valori che potrebbero portare a risultati migliori.

L'ottimizzazione bayesiana funziona costruendo un modello probabilistico della funzione obiettivo. Questa funzione surrogata diventa più efficiente nel tempo man mano che i suoi risultati migliorano: evita di allocare risorse a valori di iperparametri con prestazioni inferiori mentre si concentra sulla configurazione ottimale.

La tecnica di ottimizzazione di un modello basata su cicli di test precedenti è nota come ottimizzazione sequenziale basata su modelli (SMBO).

Hyperband

L'iperbanda migliora il workflow di ricerca casuale concentrandosi su configurazioni di iperparametri promettenti e interrompendo al contempo le ricerche meno praticabili. Ad ogni iterazione di test, l'algoritmo dell'iperbanda rimuove la metà dalle prestazioni peggiori di tutte le configurazioni testate.

L'approccio di "dimezzamento successivo" dell'iperbanda mantiene l'attenzione sulle configurazioni più promettenti fino a quando non viene individuata la migliore dal pool originale di candidati.

Messa a punto del modello e addestramento del modello a confronto

Mentre la messa a punto del modello è il processo di scoperta degli iperparametri ottimali, la messa a punto del modello avviene quando a un algoritmo di apprendimento automatico viene insegnato a individuare i modelli nel suo set di dati di addestramento e a fare previsioni accurate su nuovi dati.

Il processo di addestramento utilizza un algoritmo di ottimizzazione per ridurre al minimo una funzione di perdita, o funzione obiettivo, che misura il divario tra le previsioni di un modello e i valori effettivi. L'obiettivo è individuare la migliore combinazione di pesi e distorsione del modello per il valore più basso possibile della funzione obiettivo. L'algoritmo di ottimizzazione aggiorna periodicamente i pesi di un modello durante l'addestramento.

La famiglia di algoritmi di ottimizzazione con discesa del gradiente funziona facendo scendere il gradiente della funzione di perdita per scoprirne il valore minimo: il punto in cui il modello è più accurato. Un minimo locale è un valore minimo in un'area specificata, ma potrebbe non essere il minimo globale della funzione, ovvero il valore più basso assoluto.

Non sempre è necessario individuare il minimo globale della funzione di perdita. Si dice che un modello ha raggiunto la convergenza quando la sua funzione di perdita viene minimizzata con successo.

Convalida incrociata, test e riaddestramento

Dopo l'addestramento, i modelli vengono sottoposti a convalida incrociata, verificando i risultati dell'addestramento con un'altra parte dei dati di addestramento. Le previsioni del modello vengono confrontate con i valori effettivi dei dati di convalida. Il modello dalle prestazioni più elevate si sposta quindi alla fase di test, dove le sue previsioni vengono nuovamente esaminate per verificarne l'accuratezza prima dell'implementazione. La convalida incrociata e i test sono fondamentali per la valutazione dei modelli linguistici di grandi dimensioni (LLM).

La riqualificazione è una parte del ciclo di vita dell'AI MLOps (operazioni di apprendimento automatico) che riqualifica costantemente e autonomamente un modello nel tempo per mantenerlo performante al meglio.

Messa a punto del modello e affinamento a confronto

La messa a punto del modello individua i migliori valori degli iperparametri per l'addestramento, mentre la messa a punto fine è il processo di ottimizzazione di un foundation model pre-addestrato per specifiche attività a valle. La messa a punto fine è un tipo di apprendimento per trasferimento, quando l'apprendimento preesistente di un modello viene adattato a nuove attività.

Con la messa a punto fine, un modello pre-addestrato viene nuovamente addestrato su un set di dati più piccolo e specializzato, pertinente al caso d'uso del modello. Addestrare inizialmente un modello su un piccolo set di dati comporta il rischio di sovrapposizione, ma addestrarlo con un set di dati ampio e generalizzato aiuta ad attenuare tale rischio.

Esempi di iperparametri

Sebbene ogni algoritmo disponga di un proprio set di iperparametri, numerosi iperparametri sono condivisi tra algoritmi simili. Gli iperparametri comuni nelle reti neurali che alimentano i modelli linguistici di grandi dimensioni (LLM) includono:

Tasso di apprendimento
Decadimento del tasso di apprendimento
Epochs
Dimensione batch
Momentum
Numero di livelli nascosti
Nodi per livello
Funzione di attivazione

Tasso di apprendimento

Il tasso di apprendimento determina la velocità con cui un modello aggiorna i suoi pesi durante l'allenamento. Un tasso di apprendimento più alto significa che un modello impara più velocemente, ma con il rischio di superare un minimo locale della sua funzione di perdita. Nel frattempo, un tasso di apprendimento basso può portare a tempi di formazione eccessivi, aumentando la richiesta di risorse e costi.

Decadimento del tasso di apprendimento

Il decadimento del tasso di apprendimento è un iperparametro che rallenta il tasso di apprendimento di un algoritmo di apprendimento automatico (ML) nel tempo. Il modello aggiorna i propri parametri più rapidamente all'inizio, poi con maggiori sfumature man mano che si avvicina alla convergenza, riducendo il rischio di superamento.

Epochs

L'addestramento dei modelli prevede l'esposizione ripetuta di un modello ai suoi dati di addestramento in modo che aggiorni iterativamente i suoi pesi. Per epoca si intende quando un modello elabora l'intero set di dati di addestramento e l'iperparametro dell'epoca imposta il numero di epoche che compongono il processo di addestramento.xxx

Dimensione batch

Gli algoritmi di apprendimento automatico non elaborano l'intero set di dati di addestramento in ogni iterazione dell'algoritmo di ottimizzazione. I dati di allenamento vengono invece separati in batch, con i pesi del modello che vengono aggiornati dopo ogni batch. La dimensione del batch determina il numero di campioni di dati in ogni batch.

Momentum

Lo slancio è la propensione di un algoritmo di apprendimento automatico (ML) ad aggiornare i propri pesi nella stessa direzione rispetto agli aggiornamenti precedenti. Si può pensare allo slancio come alla convinzione di un algoritmo nel suo apprendimento. Uno slancio elevato porta un algoritmo a una convergenza più rapida con il rischio di bypassare minimi locali significativi. Nel frattempo, uno slancio ridotto può far sì che un algoritmo esitando nei suoi aggiornamenti, bloccandone il progresso.

Numero di livelli nascosti

Le reti neurali modellano la struttura del cervello umano e contengono più strati di neuroni o nodi interconnessi. Questa complessità è quello che consente ai modelli avanzati, come i modelli di trasformatori, di gestire attività generative complesse. Meno livelli rendono il modello più snello, ma più livelli aprono la strada a compiti più complessi.

Nodi per livello

Ogni livello di una rete neurale ha un numero predeterminato di nodi. Con l'aumento dell'ampiezza dei livelli, aumenta anche la capacità del modello di gestire relazioni complesse tra i punti dati, ma al costo di maggiori requisiti computazionali.

Funzione di attivazione

Una funzione di attivazione è un iperparametro che garantisce ai modelli la capacità di creare confini non lineari tra gruppi di dati. Quando è impossibile classificare con precisione i punti dati in gruppi separati da una linea retta, l'attivazione offre la flessibilità necessaria per divisioni più complesse.

Una rete neurale senza funzione di attivazione è fondamentalmente un modello di regressione lineare.

Come scegliere il giusto foundation model

Impara a scegliere l'approccio giusto nella preparazione dei set di dati e nell'impiego dei foundation model.

Risorse

Raggiungere il ROI: agenti AI nella tua azienda

Unisciti a IBM per un webinar in cui dimostriamo come trovare un ROI reale attraverso iniziative di agentic AI, con esempi in tutti i settori, casi d'uso e le storie di successo della stessa IBM.

IBM è stata nominata leader nella scienza dei dati e nell'apprendimento automatico

Scopri perché IBM è stata riconosciuta come leader nel Gartner Magic Quadrant 2025 per le piattaforme di data science e machine learning.

Dai progetti di AI ai profitti: come l'agentic AI può sostenere un ritorno finanziario

Scopri come le organizzazioni stanno passando dal lancio di progetti pilota eterogenei di AI all'utilizzo dell'AI come motore di trasformazione centrale.

Migliora le tue competenza nell'AI

Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.

Scopri IBM Granite

IBM Granite è una famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le tue applicazioni AI. Esplora le opzioni relative a lingua, codice, serie temporali e guardrail.

AI Academy IBM

Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

La guida per i CEO 2025: 5 cambi di mentalità per potenziare la crescita aziendale

Introduci questi cinque cambiamenti di mentalità per eliminare le incertezze, favorire la reinvenzione del business e potenziare la crescita con l'agentic AI.

Sblocca la potenza dell'AI generativa e dell'ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i tre elementi critici di una solida strategia di AI: creare un vantaggio competitivo, scalare l'AI in tutta l'azienda e promuovere un'AI affidabile.

Soluzioni correlate

IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI

Fasi successive

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live

Che cos'è la messa a punto del modello?

Autori

Che cos'è la messa a punto del modello?

Le ultime notizie e insight sull'AI

Cosa sono gli iperparametri?

Iperparametri e parametri di modello a confronto

Perché è importante la messa a punto del modello?

Overfitting

Distorsione

Varianza

Decoding AI: Weekly News Roundup

Come funziona la messa a punto del modello?

Metodi di messa a punto del modello

Ricerca a griglia

Ricerca casuale

Ottimizzazione bayesiana

Hyperband

Messa a punto del modello e addestramento del modello a confronto

Convalida incrociata, test e riaddestramento

Messa a punto del modello e affinamento a confronto

Esempi di iperparametri

Tasso di apprendimento

Decadimento del tasso di apprendimento

Epochs

Dimensione batch

Momentum

Numero di livelli nascosti

Nodi per livello

Funzione di attivazione

Share

Risorse

Le ultime notizie e insight sull'AI