Cosa sono le prestazioni del modello?

Auto da corsa di F1 allineate prima di una gara

Autori

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Cosa sono le prestazioni del modello?

Le prestazioni del modello indicano quanto bene un modello di machine learning (ML) svolge l'attività per cui è stato progettato, sulla base di varie metriche. Misurare le prestazioni del modello è essenziale per ottimizzare un modello di ML prima di rilasciarlo in produzione e migliorarlo dopo l'implementazione. Senza un'adeguata ottimizzazione, i modelli potrebbero produrre previsioni imprecise o inaffidabili e subire inefficienze, con conseguenti prestazioni scadenti.

La valutazione delle prestazioni del modello avviene durante le fasi di valutazione e monitoraggio del modello di una pipeline di machine learning. Dopo che i professionisti dell'intelligenza artificiale (AI) lavorano alle fasi iniziali dei progetti di machine learning (ML), passano a valutare le prestazioni di un modello su più set di dati, compiti e metriche per valutarne l'efficacia. Una volta che il modello viene distribuito, i team delle operazioni di machine learning(MLOps) monitorano le prestazioni del modello ai fini del miglioramento continuo.

Fattori che influenzano le prestazioni del modello

Le prestazioni di un modello AI vengono generalmente misurate utilizzando un set di test, ovvero confrontando gli output del modello con le previsioni del set di test di base. Gli insight ottenuti dalla valutazione delle prestazioni aiutano a determinare se un modello è pronto per la distribuzione nel mondo reale o se necessita di ulteriori modifiche o addestramento.

Ecco alcuni fattori che possono influire sulle prestazioni di un modello di machine learning:

  • Qualità dei dati
  • Fuga di dati
  • Selezione delle caratteristiche
  • Fitting del modello
  • Deviazione del modello
  • Distorsione

Qualità dei dati

Un modello è valido solo nella misura in cui lo sono anche i dati utilizzati per addestrarlo. Le prestazioni del modello risultano insufficienti quando i dati di addestramento sono imperfetti e contengono imprecisioni o incongruenze, come duplicati, valori mancanti ed etichette dei dati o annotazioni errate. Anche una mancanza di equilibrio, come ad esempio la presenza di troppi valori per uno scenario rispetto a un altro oppure un set di dati di addestramento non sufficiente o abbastanza diversificato per catturare correttamente le correlazioni, può portare a risultati distorti.

Fuga di dati

La perdita di dati nel machine learning si verifica quando, durante l'addestramento, un modello utilizza informazioni che non sarebbero disponibili al momento della previsione. Ciò può essere causato da errori di pre-elaborazione dei dati o da contaminazioni dovute a una suddivisione impropria dei dati in set di addestramento, convalida e test. La perdita di dati rende difficile il funzionamento di un modello predittivo quando si generalizza su dati non visti, oppure quando produce risultati imprecisi o inaffidabili o gonfia o sgonfia le metriche delle prestazioni.

Selezione delle caratteristiche

La selezione delle caratteristiche implica la scelta delle caratteristiche più rilevanti di un set di dati da utilizzare per l'addestramento dei modelli. Le caratteristiche dei dati influenzano il modo in cui gli algoritmi di machine learning configurano i relativi pesi durante l'addestramento, che a sua volta determina le prestazioni. Inoltre, la riduzione dello spazio delle caratteristiche a un sottoinsieme selezionato può contribuire a migliorare le prestazioni riducendo al contempo le esigenze computazionali. Tuttavia, la scelta di caratteristiche irrilevanti o insignificanti può indebolire le prestazioni del modello.

Fitting del modello

L'overfitting si verifica quando un modello di ML è troppo complesso e si adatta troppo o addirittura esattamente ai dati di addestramento, quindi non si generalizza bene sui nuovi dati. Al contrario, l'underfitting si verifica quando un modello è così semplice che non riesce a catturare i modelli sottostanti sia nei dati di addestramento che in quelli di prova.

Deriva del modello

La deriva del modello si riferisce al degrado delle prestazioni di un modello a causa di cambiamenti nei dati o nelle relazioni tra variabili di input e output. Questo decadimento può avere un impatto negativo sulle prestazioni del modello, generando processi decisionali errati e previsioni imprecise.

Distorsioni

Il pregiudizio nell'AI può essere introdotto in qualsiasi fase di un workflow di machine learning, ma è particolarmente diffuso nelle fasi di trattamento dei dati e di sviluppo del modello. Il pregiudizio dei dati si verifica quando la natura non rappresentativa dell'addestramento e della messa a punto dei set di dati influisce negativamente sul comportamento e sulle prestazioni del modello. Il pregiudizio algoritmico non è invece causato dall'algoritmo stesso, bensì dal modo in cui i team di data science raccolgono e codificano i dati di addestramento e da come i programmatori di AI progettano e sviluppano gli algoritmi di machine learning. I pregiudizi dell'AI possono portare a output imprecisi e a esiti potenzialmente dannosi.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Metriche delle prestazioni del modello

È importante allineare le metriche con gli obiettivi aziendali che un modello è destinato a soddisfare. Sebbene ogni tipo di modello di machine learning abbia il proprio set di metriche di valutazione, molti modelli condividono alcune misure:

  • di accuratezza
  • Richiamo
  • Precisione
  • Punteggio F1

Accuratezza

L'accuratezza viene calcolata come il numero di stime corrette diviso per il numero totale di previsioni. Questa percentuale è una metrica molto comune.

L'accuratezza del modello e le prestazioni del modello sono spesso paragonate, ma l'accuratezza del modello è solo una parte delle prestazioni del modello. Sebbene vi sia una connessione, le previsioni accurate da sole non possono fornire una visione olistica delle prestazioni di un modello.

Richiamo

Il richiamo quantifica il numero di veri positivi (le previsioni effettivamente corrette). È noto anche come tasso di sensibilità o tasso di veri positivi (TPR).

Questa metrica è critica nell'assistenza sanitaria, ad esempio nella diagnosi di malattie o nel'individuazione dei tumori. Un modello di machine learning (ML) con richiamo elevato può identificare correttamente i casi positivi riducendo al minimo i falsi negativi (casi positivi effettivi erroneamente previsti come casi negativi) 

Recall=TPTP+FN

Precisione

La precisione è la proporzione di stime positive che sono effettivamente positive. Un modello di machine learning ad alta precisione può ridurre al minimo i falsi positivi (casi negativi effettivi erroneamente previsti come casi positivi).

Questa metrica è fondamentale in ambito finanziario, ad esempio, per individuare le frodi. Le transazioni contrassegnate devono effettivamente essere fraudolente (veri positivi) poiché contrassegnare le transazioni legittime come fraudolente (falsi positivi) può avere conseguenze negative.

 Precision=TPTP+FP 

F1 score

Il punteggio F1 è la media armonica di richiamo e precisione, che fonde entrambe le metriche in un unico valore. Ritiene che le due misure abbiano lo stesso peso per bilanciare eventuali falsi positivi o falsi negativi. È particolarmente utile per i set di dati non equilibrati, ad esempio quando si rilevano le malattie rare, poiché i casi negativi superano di gran lunga quelli positivi.

 F1=2*Precision*RecallPrecision+Recall 

Molti framework di AI, come PyTorch basato su Python, scikit-learn e TensorFlow, offrono funzioni integrate per calcolare accuratezza, richiamo, precisione e punteggio F1. Forniscono anche visualizzazioni delle previsioni dei modelli come la matrice di confusione, una tabella che rappresenta sia i valori previsti che quelli effettivi, con riquadri che indicano il numero di veri positivi, falsi positivi, veri negativi e falsi negativi.

Diagramma che illustra la matrice di confusione

Metriche delle prestazioni del modello di classificazione

I modelli di classificazione ordinano i punti dati in gruppi predefiniti chiamati classi. Ecco alcune metriche specifiche dei modelli di classificazione:

  • Curva ROC: una curva caratteristica operativa del ricevitore (ROC) visualizza la proporzione di veri positivi rispetto ai veri negativi. Il grafico traccia il tasso di veri positivi rispetto al tasso di veri negativi per ogni soglia usata nella classificazione del modello. La statistica dell'area sotto la curva (AUC) deriva dalla curva ROC e misura la probabilità che un positivo selezionato a caso abbia un punteggio di affidabilità più alto rispetto a un negativo casuale. AUC-ROC è una metrica utile per le attività che coinvolgono la classificazione binaria (ordinamento dei dati in due classi esclusive).
  • Perdita logaritmica: la perdita di log valuta l'affidabilità delle classificazioni di un modello, penalizzando più pesantemente le classificazioni sicure errate rispetto a quelle meno sicure. Ciò è particolarmente utile quando si affrontano gli output probabilistici, poiché i modelli imparano ad avere fiducia nelle classificazioni corrette e a essere incerti rispetto a quelle errate. Valori di perdita logaritmica più bassi denotano prestazioni migliori.

Metriche di prestazione del modello di regressione

I modelli di regressione vengono utilizzati per previsioni che coinvolgono valori continui, come le stime delle vendite nel retail e le previsioni dei prezzi delle azioni. Poiché questi algoritmi si occupano di concetti quantificabili, le loro metriche misurano gli errori nelle previsioni:

  • L'errore assoluto medio (MAE) è calcolato come la somma del valore assoluto di tutti gli errori diviso per la dimensione del campione. Misura la differenza media assoluta tra il valore previsto e il valore effettivo.

  • L'errore quadratico medio (MSE) viene calcolato come la media delle differenze quadratiche tra il valore previsto e il valore reale in tutti i campioni di addestramento. La quadratura dell'errore punisce gli errori più gravi e incentiva il modello a ridurli.

  • L'errore quadratico medio (RMSE) è la radice quadrata dell'MSE. La quadratura degli errori prima di calcolarne la media punisce ancora di più gli errori più grandi, incoraggiando ancora una volta i modelli a minimizzarli.

Metriche di prestazione del modello di elaborazione del linguaggio naturale

Queste metriche valutano le prestazioni dei modelli di elaborazione del linguaggio naturale (NLP). Vengono utilizzati anche come benchmark per i modelli linguistici di grandi dimensioni (LLM).

Ecco alcune misure quantitative del modello NLP:

  • La perplessità misura la capacità di previsione di un modello. Più basso è il punteggio di perplessità di un LLM, migliore è la sua capacità di comprendere un compito.

  • Il bilingual evaluation understudy (BLEU) valuta la traduzione automatica calcolando gli n-grammi corrispondenti (una sequenza di n simboli di testo adiacenti) tra la traduzione prevista da un LLM e una traduzione prodotta dall'uomo.

  • Il recall-oriented understudy for gisting evaluation (ROUGE) valuta la sintesi del testo e ha diverse tipologie. ROUGE-N, ad esempio, esegue calcoli simili a quelli di BLEU per i riassunti, mentre ROUGE-L calcola la sottosequenza comune più lunga tra il riepilogo previsto e quello prodotto dall'uomo.

Le metriche qualitative comprendono misure come la coerenza, la rilevanza e il significato semantico e solitamente coinvolgono valutatori umani che esaminano e assegnano un punteggio ai modelli. Un equilibrio tra metriche quantitative e qualitative può consentire una valutazione più sfumata.

Metriche di prestazione del modello di computer vision

I modelli di computer vision, in particolare quelli di segmentazione delle istanze e rilevamento degli oggetti, vengono valutati utilizzando queste due comuni misure delle prestazioni:

  • Intersection over union (IoU) calcola il rapporto tra l'area di intersezione e l'area di unione. L'intersezione copre le sezioni sovrapposte tra un riquadro di delimitazione che delimita un oggetto rilevato come previsto da un modello e l'oggetto reale. L'unione indica l'area totale del riquadro di delimitazione e dell'oggetto effettivo. I modelli di computer vision utilizzano l'IoU per valutare la precisione della localizzazione degli oggetti rilevati.

  • La precisione media (mAP) calcola la media di tutti i punteggi medi di precisione tra le classi di oggetti. I modelli di computer vision utilizzano l'IoU per valutare l'accuratezza della previsione e del rilevamento.

Strategie per migliorare le prestazioni del modello

La maggior parte delle tecniche per ottimizzare le prestazioni del machine learning sono implementate durante lo sviluppo, l'addestramento e la valutazione del modello. Una volta che un modello viene distribuito nel mondo reale, le sue prestazioni devono essere costantemente monitorate. Il monitoraggio del modello fornisce informazioni utili per decidere come migliorare le prestazioni nel tempo. 

L'affinamento delle prestazioni del modello di machine learning (ML) comporta una o più di queste tecniche:

  • Pre-elaborazione dei dati
  • Prevenire la perdita di dati
  • Scegliere le funzionalità giuste
  • Messa a punto degli iperparametri
  • Apprendimento d'insieme
  • Apprendimento per trasferimento
  • Ottenere l'adattamento ottimale del modello
  • Proteggere dalla deriva del modello
  • Gestire i pregiudizi

Molti framework di AI hanno caratteristiche predefinite che supportano la maggior parte di queste tecniche.

Pre-elaborazione dei dati

Stabilire e mantenere procedure rigorose di pre-elaborazione o preparazione dei dati può aiutare a evitare problemi a livello di qualità dei dati. Sebbene la pulizia dei dati, il denoising e la normalizzazione dei dati siano i pilastri della pre-elaborazione dei dati, i data scientist possono anche utilizzare strumenti di automazione dei dati e persino strumenti basati sull'AI per risparmiare tempo e fatica e prevenire gli errori umani. Nel caso di set di dati insufficienti o non equilibrati, i dati sintetici possono colmare le lacune.

Prevenzione della perdita di dati

Un'attenta gestione dei dati è fondamentale per prevenire la perdita di dati. I dati devono essere suddivisi correttamente in set di addestramento, convalida e test, con una pre-elaborazione eseguita separatamente per ogni set.

Anche la convalida incrociata può essere utile. La convalida incrociata divide i dati in più sottoinsiemi e ne utilizza diversi per l'addestramento e la convalida in un numero definito di iterazioni.

Scegliere le funzionalità giuste

La selezione delle caratteristiche può essere impegnativa e richiede competenze specifiche nel dominio per individuare quelle più essenziali e influenti. È importante comprendere il significato di ogni caratteristica ed esaminare la correlazione tra le caratteristiche e la variabile target (la variabile dipendente che un modello ha il compito di prevedere).

I metodi di selezione delle caratteristiche per l'apprendimento supervisionato includono metodi wrapper e metodi integrati. I metodi wrapper addestrano un algoritmo di machine learning con diversi sottoinsiemi di caratteristiche, aggiungendole o rimuovendole e testando i risultati a ogni iterazione per determinare il set di caratteristiche che consente le prestazioni ottimali del modello. I metodi integrati integrano la selezione delle caratteristiche nell'addestramento dei modelli, identificando le caratteristiche con prestazioni inferiori ed eliminandole dalle iterazioni future.

Con l'apprendimento non supervisionato, i modelli individuano le caratteristiche, i pattern e le relazioni dei dati da soli. I metodi di selezione delle caratteristiche per l'apprendimento non supervisionato includono l'analisi dei componenti principali (PCA), l'analisi dei componenti indipendenti (ICA) e gli autoencoder.

Messa a punto degli iperparametri

La messa a punto degli iperparametri, nota anche come ottimizzazione degli iperparametri o ottimizzazione del modello, identifica, seleziona e ottimizza gli iperparametri di un modello di deep learning per ottenere le migliori prestazioni di addestramento. Gli iperparametri governano il processo di apprendimento di un modello; trovare la giusta combinazione e configurazione di iperparametri può rafforzare le prestazioni del modello nel mondo reale.

I metodi comuni di ottimizzazione degli iperparametri includono la ricerca a griglia, la ricerca casuale, l'ottimizzazione bayesiana e l'iperbanda. I data scientist possono anche implementare metodi automatici per scoprire in modo algoritmico gli iperparametri ottimali adatti al loro caso d'uso.

Apprendimento d'insieme

L'apprendimento di insieme combina più modelli per migliorare le prestazioni predittive, partendo dal presupposto che un collettivo o un insieme di modelli possa produrre previsioni migliori rispetto a un singolo modello da solo.

Di seguito sono riportate alcune delle tecniche di apprendimento d'insieme più diffuse:

  • Il bagging, chiamato anche aggregazione bootstrap, addestra i modelli in parallelo e in modo indipendente l'uno dall'altro. Prende quindi la media (per i compiti di regressione) o la maggioranza (per i problemi di classificazione) delle previsioni per calcolare una stima più accurata.

Diagramma che illustra il bagging nel contesto dell'apprendimento d'insieme
  • Il boosting addestra i modelli in sequenza, correggendo gli errori passati in ogni iterazione. Dà più peso alle istanze errate o classificate erroneamente nei modelli successivi, concentrandosi quindi su dati impegnativi e migliorando le prestazioni lungo il percorso.

Diagramma che illustra il boosting nel contesto dell'apprendimento d'insieme
  • Lo stacking addestra modelli dallo stesso set di dati, ma applica un algoritmo di addestramento diverso per ciascuno. Utilizza quindi le previsioni compilate o impilate per addestrare un modello finale.

Diagramma che illustra lo stacking nel contesto dell'apprendimento d'insieme

Apprendimento per trasferimento

L'apprendimento per trasferimento prende le conoscenze acquisite da un modello pre-addestrato su un'attività o set di dati iniziale e le applica a un'attività o set di dati target nuovo ma correlato. Riutilizzare un modello pre-addestrato per un'attività diversa aumenta le capacità di generalizzazione di quel modello, contribuendo a ottimizzare le prestazioni.

Ottenere il fitting ottimale del modello

La gestione dell'overfitting e dell'underfitting è una sfida chiave del machine learning. Un modello con fitting ottimale riconosce accuratamente i modelli nei dati senza essere troppo sensibile alle fluttuazioni casuali o al rumore.

Le tecniche per evitare l'overfitting e l'underfitting includono la ricerca della giusta durata di addestramento per dare ai modelli il tempo sufficiente per apprendere, la data augmentation per espandere il set di addestramento e la regolarizzazione per ridurre la varianza in un modello, applicando una penalità ai parametri di input con coefficienti maggiori.

Proteggere dalla deriva del modello

Il rilevamento della deriva, un aspetto fondamentale della monitoraggio e dell'osservabilità del modello, può aiutare a proteggere dalla deriva del modello. Ad esempio, i rilevatori di deriva dell'AI riconoscono automaticamente quando l'accuratezza di un modello diminuisce o scende al di sotto di una soglia predefinita, mentre gli strumenti di monitoraggio osservano continuamente gli scenari di deriva.

Una volta rilevata la deriva, i modelli di machine learning (ML) possono essere aggiornati in tempo reale o addestrati nuovamente utilizzando un nuovo set di dati, contenente campioni più recenti e pertinenti.

Affrontare i pregiudizi

La mitigazione dei pregiudizi dell'AI inizia con la governance dell'AI, che comprende guardrail, processi e standard che aiutano a garantire che i sistemi e gli strumenti di AI siano etici e sicuri. Ecco alcune pratiche di AI responsabile che possono prevenire i pregiudizi:

  • Diversificare le fonti di dati e includere dati rappresentativi di un'ampia varietà di condizioni, contesti e dati demografici.
  • Coltivare team diversi per promuovere la progettazione e lo sviluppo inclusivi dell'AI.
  • Utilizzare tecniche di AI spiegabili ai fini della trasparenza, come Local Interpretable Model-Agnostic Explanations (LIME) per spiegare la previsione dei classificatori tramite algoritmi di machine learning (ML) e Shapley Additive Explanations (SHAP) per spiegare l'output di qualsiasi modello di machine learning (ML).
  • Incorporare metriche di equità nel processo di sviluppo e utilizzare strumenti e framework di equità algoritmici.
  • Eseguire audit regolari per valutare i dati e gli algoritmi al fine di individuare eventuali pregiudizi.
  • Implementare un monitoraggio continuo delle prestazioni per i modelli di machine learning (ML) distribuiti, al fine di rilevare e correggere rapidamente eventuali pregiudizi nei risultati.
Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live