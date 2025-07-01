Le prestazioni del modello indicano quanto bene un modello di machine learning (ML) svolge l'attività per cui è stato progettato, sulla base di varie metriche. Misurare le prestazioni del modello è essenziale per ottimizzare un modello di ML prima di rilasciarlo in produzione e migliorarlo dopo l'implementazione. Senza un'adeguata ottimizzazione, i modelli potrebbero produrre previsioni imprecise o inaffidabili e subire inefficienze, con conseguenti prestazioni scadenti.
La valutazione delle prestazioni del modello avviene durante le fasi di valutazione e monitoraggio del modello di una pipeline di machine learning. Dopo che i professionisti dell'intelligenza artificiale (AI) lavorano alle fasi iniziali dei progetti di machine learning (ML), passano a valutare le prestazioni di un modello su più set di dati, compiti e metriche per valutarne l'efficacia. Una volta che il modello viene distribuito, i team delle operazioni di machine learning(MLOps) monitorano le prestazioni del modello ai fini del miglioramento continuo.
Le prestazioni di un modello AI vengono generalmente misurate utilizzando un set di test, ovvero confrontando gli output del modello con le previsioni del set di test di base. Gli insight ottenuti dalla valutazione delle prestazioni aiutano a determinare se un modello è pronto per la distribuzione nel mondo reale o se necessita di ulteriori modifiche o addestramento.
Ecco alcuni fattori che possono influire sulle prestazioni di un modello di machine learning:
Un modello è valido solo nella misura in cui lo sono anche i dati utilizzati per addestrarlo. Le prestazioni del modello risultano insufficienti quando i dati di addestramento sono imperfetti e contengono imprecisioni o incongruenze, come duplicati, valori mancanti ed etichette dei dati o annotazioni errate. Anche una mancanza di equilibrio, come ad esempio la presenza di troppi valori per uno scenario rispetto a un altro oppure un set di dati di addestramento non sufficiente o abbastanza diversificato per catturare correttamente le correlazioni, può portare a risultati distorti.
La perdita di dati nel machine learning si verifica quando, durante l'addestramento, un modello utilizza informazioni che non sarebbero disponibili al momento della previsione. Ciò può essere causato da errori di pre-elaborazione dei dati o da contaminazioni dovute a una suddivisione impropria dei dati in set di addestramento, convalida e test. La perdita di dati rende difficile il funzionamento di un modello predittivo quando si generalizza su dati non visti, oppure quando produce risultati imprecisi o inaffidabili o gonfia o sgonfia le metriche delle prestazioni.
La selezione delle caratteristiche implica la scelta delle caratteristiche più rilevanti di un set di dati da utilizzare per l'addestramento dei modelli. Le caratteristiche dei dati influenzano il modo in cui gli algoritmi di machine learning configurano i relativi pesi durante l'addestramento, che a sua volta determina le prestazioni. Inoltre, la riduzione dello spazio delle caratteristiche a un sottoinsieme selezionato può contribuire a migliorare le prestazioni riducendo al contempo le esigenze computazionali. Tuttavia, la scelta di caratteristiche irrilevanti o insignificanti può indebolire le prestazioni del modello.
L'overfitting si verifica quando un modello di ML è troppo complesso e si adatta troppo o addirittura esattamente ai dati di addestramento, quindi non si generalizza bene sui nuovi dati. Al contrario, l'underfitting si verifica quando un modello è così semplice che non riesce a catturare i modelli sottostanti sia nei dati di addestramento che in quelli di prova.
La deriva del modello si riferisce al degrado delle prestazioni di un modello a causa di cambiamenti nei dati o nelle relazioni tra variabili di input e output. Questo decadimento può avere un impatto negativo sulle prestazioni del modello, generando processi decisionali errati e previsioni imprecise.
Il pregiudizio nell'AI può essere introdotto in qualsiasi fase di un workflow di machine learning, ma è particolarmente diffuso nelle fasi di trattamento dei dati e di sviluppo del modello. Il pregiudizio dei dati si verifica quando la natura non rappresentativa dell'addestramento e della messa a punto dei set di dati influisce negativamente sul comportamento e sulle prestazioni del modello. Il pregiudizio algoritmico non è invece causato dall'algoritmo stesso, bensì dal modo in cui i team di data science raccolgono e codificano i dati di addestramento e da come i programmatori di AI progettano e sviluppano gli algoritmi di machine learning. I pregiudizi dell'AI possono portare a output imprecisi e a esiti potenzialmente dannosi.
È importante allineare le metriche con gli obiettivi aziendali che un modello è destinato a soddisfare. Sebbene ogni tipo di modello di machine learning abbia il proprio set di metriche di valutazione, molti modelli condividono alcune misure:
L'accuratezza viene calcolata come il numero di stime corrette diviso per il numero totale di previsioni. Questa percentuale è una metrica molto comune.
L'accuratezza del modello e le prestazioni del modello sono spesso paragonate, ma l'accuratezza del modello è solo una parte delle prestazioni del modello. Sebbene vi sia una connessione, le previsioni accurate da sole non possono fornire una visione olistica delle prestazioni di un modello.
Il richiamo quantifica il numero di veri positivi (le previsioni effettivamente corrette). È noto anche come tasso di sensibilità o tasso di veri positivi (TPR).
Questa metrica è critica nell'assistenza sanitaria, ad esempio nella diagnosi di malattie o nel'individuazione dei tumori. Un modello di machine learning (ML) con richiamo elevato può identificare correttamente i casi positivi riducendo al minimo i falsi negativi (casi positivi effettivi erroneamente previsti come casi negativi)
La precisione è la proporzione di stime positive che sono effettivamente positive. Un modello di machine learning ad alta precisione può ridurre al minimo i falsi positivi (casi negativi effettivi erroneamente previsti come casi positivi).
Questa metrica è fondamentale in ambito finanziario, ad esempio, per individuare le frodi. Le transazioni contrassegnate devono effettivamente essere fraudolente (veri positivi) poiché contrassegnare le transazioni legittime come fraudolente (falsi positivi) può avere conseguenze negative.
Il punteggio F1 è la media armonica di richiamo e precisione, che fonde entrambe le metriche in un unico valore. Ritiene che le due misure abbiano lo stesso peso per bilanciare eventuali falsi positivi o falsi negativi. È particolarmente utile per i set di dati non equilibrati, ad esempio quando si rilevano le malattie rare, poiché i casi negativi superano di gran lunga quelli positivi.
Molti framework di AI, come PyTorch basato su Python, scikit-learn e TensorFlow, offrono funzioni integrate per calcolare accuratezza, richiamo, precisione e punteggio F1. Forniscono anche visualizzazioni delle previsioni dei modelli come la matrice di confusione, una tabella che rappresenta sia i valori previsti che quelli effettivi, con riquadri che indicano il numero di veri positivi, falsi positivi, veri negativi e falsi negativi.
I modelli di classificazione ordinano i punti dati in gruppi predefiniti chiamati classi. Ecco alcune metriche specifiche dei modelli di classificazione:
I modelli di regressione vengono utilizzati per previsioni che coinvolgono valori continui, come le stime delle vendite nel retail e le previsioni dei prezzi delle azioni. Poiché questi algoritmi si occupano di concetti quantificabili, le loro metriche misurano gli errori nelle previsioni:
L'errore assoluto medio (MAE) è calcolato come la somma del valore assoluto di tutti gli errori diviso per la dimensione del campione. Misura la differenza media assoluta tra il valore previsto e il valore effettivo.
L'errore quadratico medio (MSE) viene calcolato come la media delle differenze quadratiche tra il valore previsto e il valore reale in tutti i campioni di addestramento. La quadratura dell'errore punisce gli errori più gravi e incentiva il modello a ridurli.
L'errore quadratico medio (RMSE) è la radice quadrata dell'MSE. La quadratura degli errori prima di calcolarne la media punisce ancora di più gli errori più grandi, incoraggiando ancora una volta i modelli a minimizzarli.
Queste metriche valutano le prestazioni dei modelli di elaborazione del linguaggio naturale (NLP). Vengono utilizzati anche come benchmark per i modelli linguistici di grandi dimensioni (LLM).
Ecco alcune misure quantitative del modello NLP:
La perplessità misura la capacità di previsione di un modello. Più basso è il punteggio di perplessità di un LLM, migliore è la sua capacità di comprendere un compito.
Il bilingual evaluation understudy (BLEU) valuta la traduzione automatica calcolando gli n-grammi corrispondenti (una sequenza di n simboli di testo adiacenti) tra la traduzione prevista da un LLM e una traduzione prodotta dall'uomo.
Il recall-oriented understudy for gisting evaluation (ROUGE) valuta la sintesi del testo e ha diverse tipologie. ROUGE-N, ad esempio, esegue calcoli simili a quelli di BLEU per i riassunti, mentre ROUGE-L calcola la sottosequenza comune più lunga tra il riepilogo previsto e quello prodotto dall'uomo.
Le metriche qualitative comprendono misure come la coerenza, la rilevanza e il significato semantico e solitamente coinvolgono valutatori umani che esaminano e assegnano un punteggio ai modelli. Un equilibrio tra metriche quantitative e qualitative può consentire una valutazione più sfumata.
I modelli di computer vision, in particolare quelli di segmentazione delle istanze e rilevamento degli oggetti, vengono valutati utilizzando queste due comuni misure delle prestazioni:
Intersection over union (IoU) calcola il rapporto tra l'area di intersezione e l'area di unione. L'intersezione copre le sezioni sovrapposte tra un riquadro di delimitazione che delimita un oggetto rilevato come previsto da un modello e l'oggetto reale. L'unione indica l'area totale del riquadro di delimitazione e dell'oggetto effettivo. I modelli di computer vision utilizzano l'IoU per valutare la precisione della localizzazione degli oggetti rilevati.
La precisione media (mAP) calcola la media di tutti i punteggi medi di precisione tra le classi di oggetti. I modelli di computer vision utilizzano l'IoU per valutare l'accuratezza della previsione e del rilevamento.
La maggior parte delle tecniche per ottimizzare le prestazioni del machine learning sono implementate durante lo sviluppo, l'addestramento e la valutazione del modello. Una volta che un modello viene distribuito nel mondo reale, le sue prestazioni devono essere costantemente monitorate. Il monitoraggio del modello fornisce informazioni utili per decidere come migliorare le prestazioni nel tempo.
L'affinamento delle prestazioni del modello di machine learning (ML) comporta una o più di queste tecniche:
Molti framework di AI hanno caratteristiche predefinite che supportano la maggior parte di queste tecniche.
Stabilire e mantenere procedure rigorose di pre-elaborazione o preparazione dei dati può aiutare a evitare problemi a livello di qualità dei dati. Sebbene la pulizia dei dati, il denoising e la normalizzazione dei dati siano i pilastri della pre-elaborazione dei dati, i data scientist possono anche utilizzare strumenti di automazione dei dati e persino strumenti basati sull'AI per risparmiare tempo e fatica e prevenire gli errori umani. Nel caso di set di dati insufficienti o non equilibrati, i dati sintetici possono colmare le lacune.
Un'attenta gestione dei dati è fondamentale per prevenire la perdita di dati. I dati devono essere suddivisi correttamente in set di addestramento, convalida e test, con una pre-elaborazione eseguita separatamente per ogni set.
Anche la convalida incrociata può essere utile. La convalida incrociata divide i dati in più sottoinsiemi e ne utilizza diversi per l'addestramento e la convalida in un numero definito di iterazioni.
La selezione delle caratteristiche può essere impegnativa e richiede competenze specifiche nel dominio per individuare quelle più essenziali e influenti. È importante comprendere il significato di ogni caratteristica ed esaminare la correlazione tra le caratteristiche e la variabile target (la variabile dipendente che un modello ha il compito di prevedere).
I metodi di selezione delle caratteristiche per l'apprendimento supervisionato includono metodi wrapper e metodi integrati. I metodi wrapper addestrano un algoritmo di machine learning con diversi sottoinsiemi di caratteristiche, aggiungendole o rimuovendole e testando i risultati a ogni iterazione per determinare il set di caratteristiche che consente le prestazioni ottimali del modello. I metodi integrati integrano la selezione delle caratteristiche nell'addestramento dei modelli, identificando le caratteristiche con prestazioni inferiori ed eliminandole dalle iterazioni future.
Con l'apprendimento non supervisionato, i modelli individuano le caratteristiche, i pattern e le relazioni dei dati da soli. I metodi di selezione delle caratteristiche per l'apprendimento non supervisionato includono l'analisi dei componenti principali (PCA), l'analisi dei componenti indipendenti (ICA) e gli autoencoder.
La messa a punto degli iperparametri, nota anche come ottimizzazione degli iperparametri o ottimizzazione del modello, identifica, seleziona e ottimizza gli iperparametri di un modello di deep learning per ottenere le migliori prestazioni di addestramento. Gli iperparametri governano il processo di apprendimento di un modello; trovare la giusta combinazione e configurazione di iperparametri può rafforzare le prestazioni del modello nel mondo reale.
I metodi comuni di ottimizzazione degli iperparametri includono la ricerca a griglia, la ricerca casuale, l'ottimizzazione bayesiana e l'iperbanda. I data scientist possono anche implementare metodi automatici per scoprire in modo algoritmico gli iperparametri ottimali adatti al loro caso d'uso.
L'apprendimento di insieme combina più modelli per migliorare le prestazioni predittive, partendo dal presupposto che un collettivo o un insieme di modelli possa produrre previsioni migliori rispetto a un singolo modello da solo.
Di seguito sono riportate alcune delle tecniche di apprendimento d'insieme più diffuse:
Il bagging, chiamato anche aggregazione bootstrap, addestra i modelli in parallelo e in modo indipendente l'uno dall'altro. Prende quindi la media (per i compiti di regressione) o la maggioranza (per i problemi di classificazione) delle previsioni per calcolare una stima più accurata.
Il boosting addestra i modelli in sequenza, correggendo gli errori passati in ogni iterazione. Dà più peso alle istanze errate o classificate erroneamente nei modelli successivi, concentrandosi quindi su dati impegnativi e migliorando le prestazioni lungo il percorso.
Lo stacking addestra modelli dallo stesso set di dati, ma applica un algoritmo di addestramento diverso per ciascuno. Utilizza quindi le previsioni compilate o impilate per addestrare un modello finale.
L'apprendimento per trasferimento prende le conoscenze acquisite da un modello pre-addestrato su un'attività o set di dati iniziale e le applica a un'attività o set di dati target nuovo ma correlato. Riutilizzare un modello pre-addestrato per un'attività diversa aumenta le capacità di generalizzazione di quel modello, contribuendo a ottimizzare le prestazioni.
La gestione dell'overfitting e dell'underfitting è una sfida chiave del machine learning. Un modello con fitting ottimale riconosce accuratamente i modelli nei dati senza essere troppo sensibile alle fluttuazioni casuali o al rumore.
Le tecniche per evitare l'overfitting e l'underfitting includono la ricerca della giusta durata di addestramento per dare ai modelli il tempo sufficiente per apprendere, la data augmentation per espandere il set di addestramento e la regolarizzazione per ridurre la varianza in un modello, applicando una penalità ai parametri di input con coefficienti maggiori.
Il rilevamento della deriva, un aspetto fondamentale della monitoraggio e dell'osservabilità del modello, può aiutare a proteggere dalla deriva del modello. Ad esempio, i rilevatori di deriva dell'AI riconoscono automaticamente quando l'accuratezza di un modello diminuisce o scende al di sotto di una soglia predefinita, mentre gli strumenti di monitoraggio osservano continuamente gli scenari di deriva.
Una volta rilevata la deriva, i modelli di machine learning (ML) possono essere aggiornati in tempo reale o addestrati nuovamente utilizzando un nuovo set di dati, contenente campioni più recenti e pertinenti.
La mitigazione dei pregiudizi dell'AI inizia con la governance dell'AI, che comprende guardrail, processi e standard che aiutano a garantire che i sistemi e gli strumenti di AI siano etici e sicuri. Ecco alcune pratiche di AI responsabile che possono prevenire i pregiudizi:
