Nel campo della data science, i dati di ground truth rappresentano il massimo dell'accuratezza dei dati. Consentono ai data scientist di valutare le prestazioni del modello confrontando gli output con la "risposta corretta" (dati basati su osservazioni del mondo reale). Ciò convalida che i modelli di machine learning (ML) producono risultati accurati che rispecchiano la realtà.
I dati di ground truth sono particolarmente importanti per l'apprendimento supervisionato, una sottocategoria di ML che utilizza set di dati etichettati per addestrare gli algoritmi a classificare i dati (classificatori) o a prevedere i risultati in modo accurato.
L'etichettatura dei dati, o annotazione dei dati, è fondamentale per la raccolta dei dati di ground truth. Senza etichette o annotazioni precise, i dati non possono essere considerati un benchmark per la verità nel mondo reale.
I dati di ground truth sono la base del machine learning supervisionato, basato su set di dati etichettati di alta qualità. I modelli ML supervisionati vengono utilizzati per creare e fare progredire molte delle attuali applicazioni di AI. Ad esempio, i modelli ML supervisionati sono alla base di riconoscimento di immagini e oggetti, analisi predittiva, analisi del sentiment dei clienti e rilevamento dello spam.
I dati di ground truth forniscono le informazioni accuratamente etichettate e verificate necessarie per addestrare modelli ML supervisionati, convalidarne le prestazioni e testarne la capacità di generalizzazione (o di fare previsioni accurate sulla base di nuovi dati). Agendo come la "risposta corretta" rispetto alle previsioni dei modelli, il ground truth aiuta a garantire che i sistemi di AI apprendano i pattern giusti e funzionino in modo affidabile negli scenari reali.
Pensiamo all'immagine di un gatto. Il set di dati di addestramento per questa immagine potrebbe includere etichette per il corpo, le orecchie, gli occhi e i baffi del gatto, tutte classificazioni fino al livello di pixel. Queste annotazioni insegnano agli algoritmi di machine learning come identificare caratteristiche simili all'interno di nuovi dati di immagine.
L'accuratezza di queste etichette dei set di addestramento è d'importanza critica. Se le annotazioni sono errate o non coerenti (come etichettare le zampe di un cane anziché le zampe di un gatto), il modello non riesce ad apprendere gli schemi corretti e ciò può portare a false previsioni.
Un gatto con le zampe di un cane potrebbe sembrare innocuo. Tuttavia, la posta in gioco in presenza di false previsioni è maggiore in aree come l'assistenza sanitaria e la mitigazione dei cambiamenti climatici, dove la precisione in tempo reale è fondamentale.
Il ground truth è essenziale per il ciclo di vita del machine learning (ML) supervisionato, comprese le fasi di addestramento, convalida e test dei modelli.
Il ground truth funge da base per diverse attività di apprendimento supervisionato, tra cui classificazione, regressione e segmentazione. Indipendentemente dal fatto che un modello stia imparando a classificare i dati, prevedere risultati numerici o identificare oggetti nelle immagini, il ground truth fornisce il benchmark per previsioni accurate. Queste attività hanno un'ampia gamma di casi d'uso nel mondo reale in cui l'accuratezza dei dati di ground truth è fondamentale per il successo.
Nelle attività di classificazione, i dati di ground truth forniscono le etichette corrette per ogni input, aiutando il modello a classificare i dati in classi predefinite. Ad esempio, nella classificazione binaria, un modello distingue tra due categorie (come vero o falso). La classificazione multiclasse è un po' più complessa: il modello assegna i dati a una delle diverse classi che deve scegliere.
Prendiamo come esempio il settore sanitario. Le piattaforme di AI utilizzano spesso la classificazione multiclasse per analizzare immagini mediche come ecografie e risonanze magnetiche per facilitare la diagnosi.
In generale, un'applicazione di AI può esaminare la radiografia di un braccio e classificarlo in una di queste quattro classi: rotto, fratturato, slogato o sano. Se i dati di ground truth sono errati, possono portare a previsioni errate, con potenziali diagnosi errate o cure ritardate.
Le attività di regressione si concentrano sulla previsione di valori continui. I dati di ground truth rappresentano i risultati numerici effettivi che il modello cerca di prevedere. Ad esempio, un modello di regressione lineare può prevedere i prezzi delle case in base a fattori quali metratura, numero di camere e posizione.
Nella mitigazione del cambiamento climatico, i modelli AI utilizzano immagini satellitari e dati di telerilevamento per monitorare i cambiamenti ambientali, compresi i cambiamenti di temperatura o la deforestazione.
In questo caso, i dati di ground truth includono registrazioni verificate di dati meteorologici storici o misurazioni di temperature note. Questi dati di base contribuiscono a garantire che le previsioni dei modelli AI siano accurate e possano orientare decisioni critiche in materia di politiche e azioni per il clima.
Le attività di segmentazione comportano la suddivisione di un'immagine o di un set di dati in regioni o oggetti distinti. I dati di ground truth nella segmentazione sono spesso definiti a livello di pixel per identificare i confini o le regioni all'interno di un'immagine.
Ad esempio, nello sviluppo di veicoli autonomi, le etichette di ground truth vengono utilizzate per addestrare i modelli a rilevare e distinguere tra pedoni, veicoli e segnali stradali in ambienti reali e ad agire di conseguenza. Se le etichette di ground truth sono errate o incoerenti, il modello potrebbe identificare erroneamente gli oggetti, ponendo seri rischi per la sicurezza stradale.
La creazione di dati di ground truth di alta qualità presenta diverse sfide, tra cui:
Esistono diverse strategie e metodologie che le organizzazioni possono utilizzare per stabilire e ottimizzare dati di ground truth di alta qualità, tra cui:
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione sul cloud o on-premise con IBM watsonx.governance.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.