Cosa sono i parametri del modello?

5 Maggio 2025

Tempo di lettura

Autori

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Cosa sono i parametri del modello?

I parametri del modello sono le variabili di configurazione interne di un modello di machine learning che controllano il modo in cui elabora i dati e fa previsioni. I valori dei parametri possono determinare se gli output di un modello di intelligenza artificiale (AI)riflettono risultati reali, ovvero come trasforma i dati di input in output come testo o immagini generate. 

Gli algoritmi di machine learning stimano il valore dei parametri di un modello durante il suo addestramento. L'algoritmo di apprendimento o ottimizzazione regola i parametri per garantire prestazioni ottimali del modello riducendo al minimo un errore, un costo o una funzione di perdita

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Parametri del modello e iperparametri

I parametri del modello vengono spesso confusi con gli iperparametri. Entrambi i tipi di parametri controllano il comportamento di un modello, ma con differenze significative. 

I parametri del modello sono interni al modello e vengono stimati da quest'ultimo durante il processo di apprendimento in risposta ai dati di addestramento. L'algoritmo di apprendimento del modello aggiorna i valori dei parametri durante l'addestramento. I parametri controllano il modo in cui un modello reagisce a nuovi dati, ad esempio il modo in cui un modello predittivo effettua previsioni dopo l'implementazione. 

Gli iperparametri del modello sono esterni al modello stesso e vengono definiti prima dell’addestramento tramite la regolazione degli iperparametri. Alcuni iperparametri determinano il comportamento del modello durante l'addestramento, ad esempio la velocità di apprendimento durante la discesa del gradiente o il numero di epoche del processo di addestramento. 

Altri iperparametri sono responsabili della forma e della struttura del modello, come il numero di alberi decisionali in una foresta casuale, di cluster nel k-means clustering o di strati nascosti in una rete neurale

Tipi di parametri del modello

Non tutti i modelli di deep learning condividono lo stesso set di parametri del modello. I modelli linguistici di grandi dimensioni (LLM) utilizzano pesi e bias per elaborare i dati. I modelli di regressione lineare e le macchine a vettori di supporto (SVM) hanno i propri parametri specifici, come i coefficienti del modello lineare o i vettori di supporto. 

Pesi

I pesi sono i principali elementi di controllo di un modello e determinano come esso valuta nuovi dati e formula previsioni. Rappresentano i parametri fondamentali di un LLM e vengono appresi durante l’addestramento. Gli LLM possono avere milioni o persino miliardi di pesi. 

I pesi sono variabili numeriche che determinano l'importanza relativa delle caratteristiche del set di dati rispetto all'output. In una rete neurale, i pesi determinano la forza delle connessioni tra i neuroni, ovvero il grado in cui l'output di un neurone influisce sull'input del neurone successivo. 

Bias

I bias permettono alle reti neurali di regolare gli output in modo indipendente dai pesi e dagli input del modello. Mentre un peso è una configurazione variabile, i bias sono costanti che agiscono come soglie o compensazioni. I bias aiutano i modelli a generalizzare e catturare modelli e tendenze più ampi in un set di dati. 

Le reti neurali utilizzano una funzione di attivazione per determinare se un neurone si attiva e genera un output. I bias regolano questa funzione, aggiungendo flessibilità consentendo ai neuroni di attivarsi indipendentemente dal fatto che la somma dei loro input sia sufficiente a innescare un'attivazione. 

I parametri di bias sono un concetto separato dal bias algoritmico, ovvero quando un modello produce risultati discriminatori. Bias è anche il termine che indica il tipo di errore che deriva dal fatto che il modello fa ipotesi errate sui dati, portando a una divergenza tra i valori previsti e quelli effettivi. 

Tipi di iperparametri

Poiché modellano il processo di addestramento, molti iperparametri influiscono sulla configurazione finale dei parametri di un modello. Questi possono includere: 

  • Epoca: il numero di iterazioni durante le quali l'intero set di dati di addestramento passa attraverso il modello durante l'addestramento.

  • Dimensione del batch: la quantità di dati di addestramento in ogni ciclo di addestramento. I modelli aggiornano iterativamente i loro pesi e i loro bias dopo ogni batch. 

  • Tasso di apprendimento: il grado in cui un modello può aggiornare i propri pesi. 

  • Momentum: la tendenza di un modello ad aggiornare i propri pesi nella stessa direzione degli aggiornamenti precedenti, anziché procedere nella direzione opposta.

Mixture of Experts | 25 aprile, episodio 52

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

In che modo i parametri influiscono sulle prestazioni del modello?

I parametri svolgono un ruolo cruciale nelle prestazioni del modello. Influenzano il modo in cui i neuroni di una rete elaborano i dati e generano output. Nella data science, i dati di input sono composti da qualità note come feature (caratteristiche). Ma non tutte le caratteristiche sono ugualmente rilevanti per comprendere i dati e fare buone previsioni. 

Prendiamo ad esempio un modello progettato per classificare gli animali come mammiferi o pesci. Poiché sia i mammiferi sia i pesci sono vertebrati, la caratteristica "vertebrato" non influenza le previsioni del modello. Al contrario, poiché tutti i pesci hanno le branchie e nessun mammifero le ha, la caratteristica "ha le branchie" è molto più importante per il modello. 

I pesi corrispondenti a informazioni più rilevanti creano connessioni più forti tra i neuroni rilevanti. A loro volta, connessioni più forti aumentano l'importanza delle informazioni che vengono trasmesse tra quei neuroni rispetto ad altri. 

I parametri influiscono anche sulle prestazioni del modello da un punto di vista pratico: 

  • L'overfitting si verifica quando un modello si adatta eccessivamente ai dati di addestramento e non riesce a generalizzare su nuovi dati. L'overfitting può essere più probabile o grave quando un modello ha più parametri: il modello diventa troppo adattato a uno specifico set di dati di addestramento. I progettisti di modelli utilizzano tecniche come la convalida incrociata e la regolarizzazione dropout per mitigare l'overfitting

  • I modelli con più parametri possono gestire compiti più complessi. L'aumento del numero di parametri offre al modello una comprensione più precisa dei dati. Ma come accennato in precedenza, ciò può portare a un adattamento eccessivo. 

  • Un numero maggiore di parametri aumenta le dimensioni del modello e richiede maggiori risorse di calcolo. I potenti modelli alla base delle principali app di AI generativa come ChatGPT hanno miliardi di parametri e consumano enormi quantità di acqua ed elettricità, con costi di addestramento che ammontano a milioni di dollari.

Come vengono determinati i parametri del modello?

Negli approcci tradizionali di machine learning, i modelli stabiliscono i parametri attraverso un processo di addestramento in due fasi che consiste nella propagazione in avanti e nella retropropagazione. 

La propagazione in avanti è lo spostamento dei dati attraverso il modello. I neuroni ricevono informazioni, calcolano i pesi per tali input e aggiungono bias. La funzione di attivazione determina quindi se quel valore è sufficiente per attivare il neurone. In tal caso, il neurone si attiva e trasmette gli output attraverso la rete. La catena continua fino a quando il modello non genera un output finale. 

La seconda fase è la propagazione all'indietro, o retropropagazione. Questa fase calcola l'errore del modello: la discrepanza tra il suo output e i valori reali. Per fare ciò, un algoritmo di ottimizzazione di discesa del gradiente misura il gradiente della funzione di perdita. Il modello aggiorna i pesi e i bias in risposta al gradiente, con l'obiettivo di ridurre al minimo la funzione di perdita e generare previsioni migliori. 

Il processo di propagazione in avanti/indietro continua fino a quando la funzione di perdita non è stata minimizzata con successo, che sta a indicare che il modello ha prestazioni ottimali. Le prestazioni del modello vengono giudicate in base a metriche di valutazione LLM come la coerenza del testo generato.

Come ottimizzare i parametri del modello

I ricercatori del machine learning hanno identificato una serie di tecniche che possono aiutare i modelli a raggiungere la migliore configurazione dei parametri. 

  • Il fine-tuning adatta un modello addestrato ai compiti a valle, addestrandolo ulteriormente su set di dati più piccoli e specifici del dominio. I modelli sottoposti a fine-tuning aggiornano i loro parametri in misura sufficiente per apprendere nuovi compiti, pur mantenendo la capacità di generalizzare. 

  • La regolarizzazione aggiunge una penalità alla funzione di perdita per evitare che il modello modifichi i suoi pesi in modo eccessivo. 

  • L'early stopping termina la convalida quando un modello non mostra più segni di miglioramento, conservando le risorse e minimizzando la possibilità di rendimenti decrescenti. 

  • Il transfer learning incoraggia i modelli ad applicare le conoscenze precedenti a nuovi compiti, riducendo le possibilità che dimentichino ciò che hanno già appreso. 

  • L'isolamento dei parametri blocca alcuni parametri durante l'addestramento dei modelli per nuovi compiti, impedendo l'aggiornamento e la potenziale perdita delle conoscenze precedenti. 

  • Il replay espone periodicamente un modello a un "buffer di memoria" di dati precedenti, mentre è in corso l'addestramento per nuovi compiti. Il buffer viene mescolato ai nuovi dati per rinfrescare la memoria del modello ed evitare aggiustamenti eccessivi dei pesi. 

  • La quantizzazione sostituisce i pesi di un modello addestrato con valori meno precisi, riducendone i requisiti di calcolo e preservando la conoscenza. In generale, la quantizzazione consiste nel mappare formati ad alta precisione su formati a bassa precisione. 

  • La convalida incrociata divide i dati di addestramento in sottoinsiemi noti come fold, uno per l'addestramento e uno per i test. Il processo viene ripetuto più volte con diversi raggruppamenti dei dati. 

  • L'ottimizzazione degli iperparametri è il processo di ottimizzazione degli iperparametri di un modello. Iperparametri ottimali portano a valori ottimali dei parametri del modello dopo l'addestramento.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live