Selezione del modello nel machine learning

Autori

Staff writer

Staff Editor, AI Models

IBM Think

Che cos'è la selezione del modello nell'apprendimento automatico?

La selezione del modello nel machine learning è il processo di scelta del modello di machine learning (ML) più appropriato per l'attività selezionata. Il modello selezionato è solitamente quello che generalizza meglio i dati invisibili e soddisfa con maggiore successo le metriche pertinenti delle prestazioni del modello.

Il processo di selezione del modello di ML è un confronto tra diversi modelli da un pool di candidati. Gli specialisti del machine learning valutano le prestazioni di ogni modello di ML, quindi scelgono il modello migliore in base a una serie di metriche di valutazione.

Fondamentale per la maggior parte delle attività di machine learning è la capacità di riconoscere i modelli nei dati e quindi fare previsioni su nuovi dati sulla base di tali modelli. La scelta del modello predittivo con le migliori prestazioni porta a previsioni più accurate e a un'applicazione più affidabile del machine learning.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Perché la selezione del modello è importante?

La selezione del modello AI è importante perché determina le prestazioni del sistema di machine learning. Diversi modelli hanno ciascuno punti forti e deboli e la scelta di quello giusto influisce direttamente sul successo del progetto. La selezione del modello è una fase iniziale della più ampia pipeline di machine learning per la creazione e implementazione di modelli ML.

Alcune attività richiedono modelli complessi in grado di catturare i dettagli di un ampio set di dati, ma che possono avere difficoltà a generalizzare i nuovi dati. Potrebbero anche comportare maggiori richieste di elaborazione e risorse. Altre attività sono migliori per modelli più piccoli e semplici, progettati per uno scopo specifico.

Scegliere il modello giusto per il lavoro può:

Ottimizzare l'efficienza: il più forte tra tutti i modelli candidati bilancerà il compromesso tra prestazioni e generalizzazione con la complessità e l'utilizzo delle risorse.
Aumentare al massimo le prestazioni del modello: uno strumento è potente solo quanto l'attività a cui viene applicato. Il test e la valutazione dei modelli candidati rivelano il modello più performante per il lavoro da svolgere, dando all'applicazione AI la migliore possibilità di essere utilizzabile nel mondo reale.
Favorire il successo del progetto: la complessità del modello influisce direttamente sui tempi di addestramento e sui requisiti delle risorse, oltre che sui risultati. I modelli predittivi vanno dal semplice al complesso. I modelli più semplici sono più rapidi ed economici da addestrare, mentre i modelli complessi richiedono più dati, tempo e denaro.

AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Guarda la serie

Il processo di selezione del modello

Il processo di selezione del modello è progettato per produrre un modello personalizzato per il caso d'uso di destinazione. Gli specialisti del machine learning delineano il problema, scelgono tra i tipi di modelli che potrebbero funzionare bene e infine addestrano e testano i modelli candidati per identificare la migliore scelta complessiva.

Le fasi del processo di selezione del modello includono solitamente:

Definire la sfida dell'apprendimento automatico
Scegliere i modelli candidati
Determinare le metriche di valutazione del modello
Addestrare e valutare i modelli

Definire la sfida del ML

A seconda della natura dell'attività, alcuni algoritmi di machine learning rappresentano una scelta migliore di altri. Le sfide di ML rientrano solitamente in una di queste tre categorie:

I problemi di regressione impongono ai modelli di identificare le relazioni tra le caratteristiche di input e una variabile di output continuo selezionata, come un prezzo. Esempi di problemi di regressione includono la previsione dei benchmark o la probabilità di disastri naturali in base alle condizioni meteorologiche. Le previsioni del modello si basano su caratteristiche di input pertinenti, come il periodo dell'anno o le informazioni demografiche. La previsione delle serie temporali è un tipo di sfida di regressione che prevede il valore di una variabile nel tempo. I modelli delle serie temporali sono una classe di modelli efficienti dal punto di vista del calcolo, specializzata in questa sfida.
I problemi di classificazione ordinano i punti dati in categorie in base a un input. Esempi di problemi di classificazione includono il riconoscimento degli oggetti e i filtri antispam per le e-mail. Il set di addestramento potrebbe includere punti dati con output etichettati in modo che il modello possa apprendere l'associazione tra input e output. Questa pratica è nota come apprendimento supervisionato.
I problemi di clustering raggruppano i punti dati in base alle somiglianze. Il clustering non è esattamente uguale alla classificazione, in quanto l'obiettivo è quello di scoprire cluster all'interno dei punti dati, piuttosto che ordinare i punti dati in categorie. I modelli devono individuare autonomamente le somiglianze in un ambiente di apprendimento non supervisionato . La segmentazione del mercato è un esempio di sfida di clustering.

Determinazione delle metriche di valutazione del modello

Il processo di test confronta i modelli candidati e ne valuta le prestazioni rispetto a una serie di metriche di valutazione preselezionate. Sebbene esistano numerose metriche, alcune sono più adatte ad alcuni tipi di sfide di machine learning (ML) rispetto ad altre.

Le metriche di valutazione del modello per la classificazione includono:

Accuratezza: la percentuale di previsioni corrette sul totale delle previsioni effettuate.
Precisione: il rapporto tra le previsioni vere positive tra tutte le previsioni positive, che misura l'accuratezza delle previsioni positive.
Richiamo: il rapporto tra le previsioni positive reali tra tutti i casi positivi effettivi, che misura l'abilità del modello di identificare i casi positivi.
Punteggio F1: combina precisione e richiamo per una panoramica generale della capacità del modello di riconoscere e classificare correttamente i casi positivi.
Matrice di confusione: riassume le prestazioni di un modello di classificazione visualizzando i veri positivi, i falsi positivi, i veri negativi e i falsi negativi in una tabella.
AUC-ROC: un grafico che traccia i tassi di veri positivi e falsi positivi come curva delle caratteristiche operative del ricevitore (ROC). L'area sotto la curva (AUC) mostra le prestazioni del modello.

Le metriche di valutazione della regressione includono:

Errore quadratico medio (MSE): fa la media della differenza tra i quadrati delle differenze tra i valori previsti e quelli effettivi. Il valore MSE è molto sensibile agli outlier e penalizza gravemente gli errori di grandi dimensioni.
Errore quadratico medio (RMSE): la radice quadrata dell'MSE, che visualizza il tasso di errore nelle stesse unità della variabile e aumenta l'interpretabilità della metrica. Il valore MSE mostra lo stesso errore in unità al quadrato.
Errore assoluto medio (MAE): la media delle differenze tra i valori effettivi e quelli praticati per la variabile target. Il MAE è meno sensibile del valore MSE.
Errore percentuale assoluto medio (MAPE): trasmette l'errore assoluto medio come percentuale anziché nelle unità della variabile prevista, facilitando il confronto dei modelli.
R quadro: fornisce una misurazione benchmark delle prestazioni del modello tra 0 e 1. Tuttavia, il valore r al quadrato può essere gonfiato artificialmente con l'aggiunta di altre caratteristiche.
R-quadrato rettificato: riflette i contributi delle caratteristiche che migliorano le prestazioni del modello, ignorando le caratteristiche irrilevanti.

Formazione e valutazione dei modelli

I data scientist si preparano per l'addestramento e la valutazione del modello dividendo i dati disponibili in diversi set. Il set di dati di addestramento viene utilizzato per l'addestramento del modello, durante il quale i modelli candidati imparano a riconoscere i modelli e le relazioni nei punti di dati. Le prestazioni del modello vengono quindi verificate con una parte diversa del set di dati.

La forma di test più semplice e rapida è lo split train-test. I data scientist hanno diviso il set di dati in due parti, una per l'addestramento e una per i test. Il modello è esposto allo split test solo dopo l'addestramento: il set di test funge da sostituto per i nuovi dati invisibili che il modello elaborerà nel mondo reale.

Tecniche di selezione del modello

I creatori di modelli hanno accesso a un'ampia gamma di tecniche di selezione dei modelli. Alcuni riguardano la configurazione iniziale e l'architettura del modello, influenzandone a loro volta il comportamento. Altri forniscono una valutazione del modello più sfumata e rigorosa o prevedono le prestazioni dei modelli su un set di dati specificato.

Le tecniche di selezione del modello includono:

Messa a punto degli iperparametri
Convalida incrociata
Bootstrap
Criteri di informazione

Messa a punto degli iperparametri

L'ottimizzazione degli iperparametri è il processo di ottimizzazione degli iperparametri di un modello, ovvero impostazioni esterne che determinano la struttura e il comportamento del modello. I modelli hanno anche parametri interni che si aggiornano in tempo reale durante l'addestramento. I parametri interni regolano il modo in cui un modello elabora i dati. I modelli complessi, come quelli utilizzati per l'AI generativa (gen AI), possono avere oltre un trilione di parametri.

L'ottimizzazione degli iperparametri non uguale all'ottimizzazione di un modello, ovvero quando un modello viene ulteriormente addestrato o regolato dopo la fase di addestramento iniziale (nota come pre-addestramento).

Le tecniche di ottimizzazione degli iperparametri più note includono:

Ricerca a griglia: ogni possibile combinazione di iperparametri viene addestrata, testata e valutata. La ricerca a griglia è un metodo esaustivo a forza bruta, in grado di scoprire la migliore combinazione di iperparametri. Tuttavia, richiede molto tempo e molte risorse.
Ricerca casuale: i campioni di combinazioni di iperparametri vengono selezionati in modo casuale, e ogni campione del sottoinsieme viene utilizzato per addestrare e testare un modello. La ricerca casuale è un'alternativa alla ricerca a griglia quando quest'ultima non è fattibile.
Ottimizzazione bayesiana: un modello probabilistico viene utilizzato per prevedere quali combinazioni di iperparametri hanno maggiori probabilità di ottenere prestazioni ottimali del modello. L'ottimizzazione bayesiana è un metodo iterativo che migliora a ogni ciclo di addestramento e test e funziona bene con ampi spazi di iperparametri.

Convalida incrociata

Nel sistema di ricampionamento a convalida incrociata k-fold, i dati vengono divisi in k insiemi o fold. I dati di addestramento comprendono k-1 sottoinsiemi e il modello viene convalidato sul set rimanente. Il processo si itera in modo che ogni sottoinsieme serva come set di validazione. I punti dati vengono campionati senza sostituzione, il che significa che ogni punto dati viene visualizzato una volta per iterazione.

La convalida incrociata K-fold fornisce una panoramica più olistica delle prestazioni di un modello rispetto a un singolo split train-test.

Bootstrap

Il bootstrapping è una tecnica di ricampionamento simile alla convalida incrociata, con la differenza che i punti dati vengono campionati tramite sostituzione. Ciò significa che i punti dati campionati possono apparire in più fold.

Criteri di informazione

I criteri di informazione confrontano il grado di complessità del modello con le sue possibilità di overfitting o underfitting del set di dati. L'overfitting significa che il modello si adatta troppo strettamente al set di addestramento e non riesce a generalizzare su nuovi dati. L'underfitting è l'inverso, ovvero un modello non è sufficientemente complesso per catturare le relazioni tra i punti dati.

L'Akaike Information Criterion (AIC) e il Bayesian Information Criterion (BIC) incentivano entrambi l'adozione del modello con la complessità più bassa possibile in grado di gestire adeguatamente il set di dati.

Fattori che influenzano la selezione del modello

Le prestazioni del modello non sono assolutamente l'unico fattore determinante di ciò che rende un modello "migliore". Altri fattori possono essere altrettanto, se non di più, rilevanti per la decisione.

Complessità dei dati: più un set di dati è complesso, più complesso è il modello necessario per elaborarlo. Ma l'applicazione di un modello troppo complesso può portare a un overfitting. E un modello troppo semplice potrebbe non riuscire a catturare adeguatamente gli schemi presenti nei dati. Il modello giusto elaborerà i dati in modo efficace ed efficiente, evitando l'overfitting.
Qualità dei dati: la pre-elaborazione dei dati e la selezione delle caratteristiche sono due processi di data science che preparano i dati per le applicazioni di apprendimento automatico. Gli outlier, i dati mancanti e altri funzioni di blocco influiscono su alcuni modelli più di altri, ma possono essere superati con dati sintetici, regolarizzazione e altre contromisure.
Interpretabilità: l'interpretabilità o spiegabilità è il grado in cui il funzionamento di un modello può essere compreso dagli osservatori umani. Un modello "black box" possiede poca o nessuna interpretabilità e il suo workflow decisionale è in gran parte un mistero. Con applicazioni aziendali sensibili come l'automazione intelligente e il processo decisionale basato su AI, l'interpretabilità è una priorità per le organizzazioni che aderiscono alle linee guida sull'uso dell'AI responsabile. Alcuni settori, come l'assistenza sanitaria e la finanza, devono rispettare un elevato livello di privacy dei dati e altre normative, il che sottolinea ulteriormente la necessità di una chiara interpretabilità.
Efficienza e uso delle risorse: limitazioni pratiche come la disponibilità di computer e finanze possono escludere completamente alcuni modelli. Le reti neurali profonde richiedono enormi quantità di dati e denaro per essere addestrate e funzionanti. Sebbene questi modelli siano entusiasmanti, non sono adatti a tutti i lavori. AIC e BIC possono aiutare i responsabili dei progetti di machine learning (ML) a prendere decisioni informate e a ridurre la complessità dei modelli.

Selezione LLM

Gli LLM sono i modelli di AI di base per molte applicazioni aziendali, come agenti AI, RAGper la risposta alle domande o chatbot per il servizio clienti con generazione di testo automatica. L'elaborazione del linguaggio naturale (NLP) è l'uso di algoritmi di machine learning per comprendere e generare il linguaggio umano, ,mentre gli LLM sono un tipo specifico di modello di NLP.

Tra gli LLM più noti figurano la famiglia GPT di OpenAI, come GPT-4o e GPT-3.5, alcuni dei modelli alla base di ChatGPT, nonché Claude di Anthropic, Gemini di Google e Llama 3 di Meta. Tutti gli LLM sono in grado di gestire attività complesse, tuttavia le esigenze specifiche di un progetto di machine learning possono aiutare a stabilire il giusto LLM per un lavoro.

La scelta del giusto LLM dipende da una serie di fattori, tra cui:

Caso d'uso specifico: la sfida dell'apprendimento automatico influisce direttamente sul processo di selezione del modello LLM. Un LLM potrebbe essere migliore nella comprensione e nel riepilogo di documenti lunghi, mentre un altro potrebbe essere più facile da mettere a punto per gli usi specifici del dominio.
Prestazioni: proprio come gli altri modelli, gli LLM possono essere confrontati tra loro per valutare le prestazioni. I benchmark LLM includono metriche per il ragionamento, la codifica, la matematica, la latenza, la comprensione e la conoscenza generale. Valutare le esigenze di un progetto rispetto al benchmark può aiutare a determinare il miglior LLM da scegliere per generare output di alta qualità.
Open source o closed source: i modelli open source consentono agli osservatori di monitorare il modo in cui il modello prende le decisioni. Diversi LLM possono essere soggetti a pregiudizi e allucinazioni in vari modi, ad esempio quando generano previsioni che non riflettono i risultati del mondo reale. Quando la moderazione dei contenuti e la prevenzione dei pregiudizi sono fondamentali, limitare le scelte ai fornitori open source può aiutare a plasmare il processo di selezione del modello LLM.
Uso e costi delle risorse: i modelli LLM sono affamati di risorse. Molti LLM sono alimentati da data center iperscalabili con centinaia di migliaia di unità di elaborazione grafica (GPU) o più. I fornitori di LLM inoltre addebitano in modo diverso le connessioni API ai loro modelli. La scalabilità di un modello e del suo sistema di prezzi influiscono direttamente sull'ambito del progetto.

Data science e MLOps per i leader dei dati

Allineati con altri leader sui tre obiettivi chiave di MLOps e dell'AI affidabile: fiducia nei dati, nei modelli e nei processi.