Cosa sono i parametri del modello?

I parametri del modello sono i valori appresi all'interno di un modello di machine learning che determinano il modo in cui associa i dati di input agli output, come il testo generato o una classificazione prevista. Lo scopo di un algoritmo di machine learning è quello di regolare i parametri fino a quando gli output di un modello di intelligenza artificiale (AI) non si allineano strettamente ai risultati.

I valori di questi parametri determinano le previsioni di un modello e, in ultima analisi, le prestazioni del modello in una determinata attività. Il numero di parametri in un modello influenza direttamente la sua capacità di acquisire modelli tra i punti dati. I modelli di grandi dimensioni, come quelli utilizzati nell'AI generativa, possono avere miliardi di parametri, che consentono loro di generare output altamente sofisticati. Più parametri consentono ai modelli di acquisire con maggiore precisione modelli di dati più sfumati, ma troppi parametri rischiano di sovradimensionarsi.

Algoritmi di machine learning diversi hanno tipi di parametri diversi. Ad esempio, i modelli di regressione hanno coefficienti, le reti neurali hanno pesi e bias e alcuni algoritmi, come le macchine a vettori di supporto o i modelli dello spazio degli stati, hanno tipi di parametri unici.

I parametri del modello, variabili apprese durante l'allenamento, non devono essere confusi con gli iperparametri, che vengono impostati in anticipo. Entrambi i tipi di parametro influenzano le prestazioni e il comportamento di un modello, ma in modi molto diversi.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Parametri del modello semplificati

I parametri sono presenti nei modelli semplici, anche nel modello matematico più semplice possibile, che descrive una quantità che cambia a un tasso costante.

Regressione lineare

Per scoprire in che modo la metratura potrebbe influire sul prezzo di una casa, si potrebbe usare un semplice modello di regressione lineare che utilizza l'equazione $y = m x + b$ , dove m (la pendenza) e b (l'intercetta) sono parametri. Regolandoli, la linea risultante si sposta e si inclina fino a quando non si adatta meglio ai dati.

Classificazione

Un esempio leggermente più complesso potrebbe essere l'utilizzo di un modello di regressione logistica per determinare se una casa verrà venduta o meno in base ai giorni in cui la casa è stata sul mercato.

La regressione logistica utilizza la formula: $p = \frac{1}{1 + e^{- (w x + b)}}$ , dove p = "probabilità di vendita" e x = "giorni sul mercato". Anche in questo caso, w e b sono parametri che il modello "apprende". L'equazione è diventata un po' più complessa, ma ci sono ancora solo 2 parametri in gioco.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Tipi di parametri del modello

Nel machine learning, i parametri del modello sono principalmente di 2 tipi: pesi e distorsioni. Nell'esempio di un modello di regressione lineare semplice, $y = m x + b$ , il peso corrisponde alla pendenza m, controllando la forza con cui l'input influenza l'output. Maggiore è il peso, maggiore è l'impatto dell'input. Il bias corrisponde all'intercetta b. Ciò consente al modello di spostare l'intera linea verso l'alto o verso il basso.

Pesi

I pesi sono i principali elementi di controllo di un modello e determinano come esso valuta nuovi dati e formula previsioni.

Nei modelli di regressione, i pesi determinano l'influenza relativa di ciascuna caratteristica utilizzata per rappresentare ogni punto di dati input. Nelle reti neurali, i pesi determinano l'influenza relativa dell'output di ciascun neurone su quello di ciascuno degli altri del livello successivo.

Nell'esempio di un modello che cerca di prevedere se una casa venderà in base a fattori come "giorni sul mercato", ognuno di questi fattori ha un peso che riflette quanto fortemente quel fattore influenzi la probabilità di vendita.

Bias

I bias consentono ai modelli di regolare gli output indipendentemente dai pesi e dagli input, fungendo da soglie o offset. I bias aiutano i modelli a generalizzare e catturare modelli e tendenze più ampi in un set di dati.

Rimanendo fedeli al modello di vendita delle case, forse storicamente il 60% di tutte le case della zona alla fine viene venduta, indipendentemente da quanti giorni sono state sul mercato, anche se una particolare casa è stata messa in vendita per molti giorni o ha poche visite. La polarizzazione consente al modello di iniziare con questa probabilità di base realistica e poi di aggiustare verso l'alto o verso il basso in base agli altri input.

Questo uso del "bias" è un concetto separato dal bias algoritmico, ovvero quando un modello produce risultati discriminatori. Bias è anche il termine che indica il tipo di errore che deriva dal fatto che il modello fa ipotesi errate sui dati, portando a una divergenza tra i valori previsti e quelli effettivi. Entrambi non sono correlati alla distorsione dei parametri.

Altri parametri

Esistono altri tipi di parametri nel mondo del machine learning I modelli semplici discussi in precedenza utilizzano pesi e distorsioni, così come reti neurali molto più complesse, insieme a parametri di guadagno e spostamento per la normalizzazione.

Le reti neurali convoluzionali, ad esempio, dispongono di filtri (noti anche come kernel) che rilevano schemi spaziali. Le reti neurali ricorrenti con memoria a lungo termine utilizzano parametri di gating che controllano il flusso di informazioni attraverso la rete. I modelli probabilistici come Naive Bayes utilizzano parametri per definire le probabilità condizionali o le proprietà delle distribuzioni di probabilità. Le macchine vettoriali di supporto definiscono parametri che posizionano e orientano gli "iperpiani" in classi separate nello spazio delle caratteristiche. I modelli di stato dello spazio degli stati hanno parametri di osservazione e rumore.

Questo è un elenco limitato di esempi e i parametri dei diversi modelli funzionano in modi distinti. Ma, in tutti, i parametri determinano il modo in cui i modelli mappano i dati di input agli output.

Parametri del modello e iperparametri

I parametri sono essenzialmente le risposte alla domanda che il modello si pone (ad es. "Qual è la migliore inclinazione possibile dell'equazione che ci dirà con la massima precisione quale sarà il prezzo della casa, in base alla sua metratura?")

Gli iperparametri, d'altra parte, possono essere percepiti come le regole del gioco che dicono al modello come trovare quella risposta. I data scientist che addestrano il modello usano la loro comprensione del problema per imporre confini che determinano il modo in cui il modello cercherà le risposte.

I parametri del modello sono interni ad esso e vengono aggiornati tra le iterazioni del processo di apprendimento in risposta ai dati di addestramento. Il modello aggiorna i valori dei parametri durante l'addestramento. I parametri controllano il modo in cui il modello reagisce ai dati non visualizzati.

Gli iperparametri del modello sono esterni al modello stesso e vengono definiti prima dell’addestramento tramite la regolazione degli iperparametri. Alcuni iperparametri determinano il comportamento del modello durante l'addestramento, ad esempio la velocità di apprendimento durante la discesa del gradiente o il numero di epoche del processo di addestramento.

Altri iperparametri sono responsabili della forma e della struttura del modello, come il numero di alberi decisionali in una foresta casuale, di cluster nel k-means clustering o di strati nascosti in una rete neurale.

Parametri del modello in reti neurali

I modelli di machine learning possono essere molto più complessi degli esempi precedenti. In una rete neurale come un modello linguistico di grandi dimensioni (LLM), un modello prende decisioni in modo simile al modo in cui i neuroni biologici lavorano insieme nel cervello umano. Ognuna è costituita da strati di neuroni artificiali, in cui ciascuno rappresenta una funzione matematica che elabora i numeri. Nel deep learning, le reti neurali consistono di molti di questi livelli.

Da livello a livello

Ogni neurone controlla la forza con cui una parte della rete influenza l'altra. I pesi determinano la forza delle connessioni tra i neuroni: il grado in cui l'output di un neurone influisce sull'input del neurone successivo.

Durante l'addestramento, la rete riceve input. Per continuare con l'esempio dei prezzi delle case, potrebbero essere metri quadrati, anno di costruzione, dati demografici del quartiere e decine di altri input.

Queste caratteristiche di input vengono trasmesse al primo livello di neuroni. Ogni input viene moltiplicato per un peso, l'ipotesi migliore della rete sull'importanza di quel neurone, e viene aggiunto un bias per migliorare la flessibilità, dando ai neuroni una certa indipendenza dall'influenza della somma ponderata degli input dei neuroni nel livello precedente. Una funzione di attivazione decide la forza con cui quel neurone "si attiva" e trasmette le informazioni allo strato successivo come input alle funzioni di attivazione di ogni singolo neurone dello strato successivo. Ognuna di queste connessioni neurone-neurone ha il proprio peso.

I pesi formano una matrice, i bias formano un vettore e il livello calcola combinazioni lineari di input + bias, quindi passa il risultato attraverso una funzione di attivazione, come una funzione sigmoid, tanh, ReLU o softmax. Il compito di questa funzione è quello di introdurre la non linearità, che consente alla rete di apprendere e modellare modelli complessi invece di semplici relazioni lineari.

I dati si spostano attraverso i successivi livelli "nascosti". Il primo strato nascosto potrebbe combinare la metratura della casa e il numero di camere da letto per arrivare allo "spazio abitativo complessivo". Un altro livello può combinare la posizione geografica della casa + la valutazione del distretto scolastico per determinare la "desiderabilità del quartiere". Il modello, che non ha la comprensione di un essere umano di cosa sia la "desiderabilità del quartiere", riconosce semplicemente i modelli nei numeri dei suoi dati di addestramento e fa correlazioni.

Da un livello all'altro, la rete inizia a "capire" quali modelli sono più rilevanti. Questi livelli sovrapposti trasformano semplici operazioni in una potente rete in grado di apprendere modelli gerarchici complessi.

Perdita e retropropagazione

Nella fase successiva, la rete calcola la perdita (la differenza tra l'output della rete e la verità fondamentale, la struttura dei dati presenti nel set di dati di addestramento). Questo fornisce un numero unico che rappresenta la distanza dal modello.

Quindi, durante la retropropagazione, la rete calcola il gradiente della perdita rispetto ai pesi e alle distorsioni, il che indica alla rete quali parametri stanno influenzando la perdita e come regolarli per minimizzarla. Ciò avviene in ordine inverso, strato per strato, con un algoritmo di discesa del gradiente. Gli algoritmi di ottimizzazione come la discesa del gradiente sono progettati per minimizzare una funzione di perdita, indicando al modello come modificare in modo efficiente i suoi parametri per ridurre la perdita.

I processi di cui abbiamo parlato in precedenza si ripetono finché il modello non è in grado di fornire output (in questo caso, il prezzo previsto della casa) al livello di prestazioni desiderato.

L'esempio di previsione dei prezzi delle case esprime il modo in cui le reti neurali acquisiscono molte caratteristiche contemporaneamente, le combinano in modi non lineari e output una previsione utile. Tuttavia, ciò poteva essere ottenuto con un modello di regressione lineare più semplice. Le reti neurali danno il meglio di sé quando i dati non sono strutturati o quando i modelli sono troppo complessi o ad alta dimensionalità per i modelli tradizionali. Ad esempio, una rete neurale può essere utilizzata per elaborare foto satellitari e dati cartografici del quartiere per prevedere il prezzo di vendita, oppure, potrebbe essere addestrata a riconoscere termini chiave nelle descrizioni degli annunci, come "strada tranquilla" o "tetto nuovo".

Messa a punto

Una volta completata la formazione iniziale, i modelli AI possono essere ulteriormente adattati a compiti o aree tematiche specifici. La messa a punto è il processo di adattamento di un modello preformato per casi d'uso specifici. A tale scopo, i parametri del modello vengono aggiornati tramite addestramento aggiuntivo sui nuovi dati.

Altri tipi di apprendimento

L'esempio precedente della rete neurale utilizzata per prevedere i prezzi delle case descrive l'apprendimento supervisionato, in cui i modelli apprendono utilizzando dati etichettati. In questo contesto, al modello vengono forniti sia gli input che gli output corretti. Il modello confronta le sue previsioni con la verità fondamentale (in questo caso, dati etichettati). La messa a punto avviene spesso in un contesto supervisionato.

L'apprendimento non supervisionato consente ai modelli di apprendere i parametri trovando modelli o strutture in dati non etichettati, senza che gli venga detta la "risposta giusta". Invece di confrontare le previsioni con le etichette di ground truth (come nell'apprendimento supervisionato), questi modelli ottimizzano gli obiettivi che misurano quanto bene il modello spiega i dati stessi. Ad esempio, nel clustering, i parametri (come i centroidi del cluster in k-means) vengono aggiornati in modo iterativo in modo che punti simili vengono raggruppati più vicino insieme. Nella riduzione della dimensionalità, i parametri vengono appresi trovando le direzioni che catturano la maggiore varianza nei dati.

Nell'apprendimento per rinforzo, un modello (o un agente alimentato da un modello) interagisce con un ambiente, ricevendo ricompense per le azioni corrette. I parametri di solito definiscono una politica o una funzione di valore che stima la ricompensa attesa. I parametri vengono aggiornati confrontando i premi previsti con i premi effettivi ricevuti.

Convalida delle prestazioni dei parametri del modello

Migliorare le prestazioni sui dati di addestramento è l'obiettivo della formazione, ma è solo un mezzo per raggiungere un fine. L'obiettivo principale è la generalizzazione, che si ottiene addestrando il modello in modo che generalizzi bene rispetto alle attività del mondo reale che non vedeva nei suoi dati di addestramento.

Bisogna fare attenzione a evitare insidie come l'overfitting, quando i parametri rilevano rumore o fluttuazioni casuali nei dati di addestramento, che portano a una scarsa generalizzazione sui nuovi dati. I parametri devono essere abbastanza flessibili da apprendere modelli significativi, ma non così flessibili da memorizzare dettagli irrilevanti.

Diverse tecniche di data science vengono utilizzate per valutare le prestazioni del modello. La convalida incrociata è una tecnica di valutazione del modello in cui il set di dati viene suddiviso in più parti (riduzioni). Il modello viene addestrato su alcuni fold e testato sul fold rimanente, e questo processo viene ripetuto fino a quando ogni fold non è stato utilizzato come set di test. In questo modo si riduce il rischio di overfitting, poiché il modello viene testato su più partizioni dei dati. La convalida incrociata non modifica direttamente i parametri, ma verifica la generalizzazione dei parametri appresi ai dati non visti. Se le prestazioni sono costanti in tutti i fold, i parametri sono probabilmente ben ottimizzati. In caso contrario, i parametri del modello potrebbero essere eccessivamente adatti al sottoinsieme dei dati di addestramento che ha già visto. Un'ulteriore formazione su dati più diversificati può migliorare la generalizzazione.

Un'altra tecnica è il bootstrapping, un metodo statistico che prevede la creazione di nuovi set di dati mediante campionamento casuale e sostituzione dal set di dati originale. Il bootstrapping produce molti set di parametri, poiché ogni campione è leggermente diverso. Osservando la variazione tra questi modelli con bootstrapping, si può misurare l'affidabilità dei parametri quando vengono addestrati su dati leggermente diversi.

I professionisti fanno affidamento anche a metriche che quantificano le prestazioni del modello, come accuratezza, precisione, richiamo o errore quadratico medio. Questi forniscono un feedback oggettivo sul fatto che i parametri attuali stiano spostando il modello nella giusta direzione.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Cosa sono i parametri del modello?