L'etichettatura dei dati, o annotazione dei dati, fa parte della fase di pre-elaborazione quando si sviluppa un modello di ML (machine learning). Richiede l'identificazione dei dati non elaborati (ad es. immagini, file di testo, video) e quindi l'aggiunta di una o più etichette a tali dati per specificare il contesto per i modelli, consentendo al modello di machine learning di fare previsioni accurate.
L'etichettatura dei dati supporta diversi casi di utilizzo di machine learning e deep learning, inclusi visione artificiale (computer vision) ed NLP (Natural Language Processing - elaborazione del linguaggio naturale).
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
Le aziende integrano software, processi e annotatori di dati per ripulire, strutturare ed etichettare dati. Questi dati di addestramento diventano la base per i modelli di machine learning. Queste etichette consentono agli analisti di isolare variabili all'interno di dataset e questo, a sua volta, permette la selezione di predittori di dati ottimali per modelli di ML. Le etichette identificano i vettori di dati appropriati da inserire per l'addestramento del modello, dove il modello, quindi, impara a fare le migliori previsioni.
Insieme all'assistenza della macchina, le attività di etichettatura dei dati richiedono una partecipazione "HITL (human-in-the-loop)". HITL si avvale del giudizio di "etichettatori di dati" umani ai fini della creazione, dell'addestramento, dell'ottimizzazione e della verifica di modelli di ML. Essi aiutano a guidare il processo di etichettatura dei dati mediante l'inserimento di dataset di modelli che sono i più applicabili a un determinato progetto.
I computer utilizzano dati etichettati e non etichettati per addestrare modelli di ML, ma qual è la differenza?
I computer possono anche utilizzare dati combinati per un apprendimento semi-supervisionato, che riduce l'esigenza di dati etichettati manualmente mentre fornisce un grande dataset con annotazioni.
L'etichettatura dei dati è una fase critica nello sviluppo di un modello di ML ad elevate prestazioni. Nonostante l'etichettatura sembri semplice, non è sempre facile da implementare. Di conseguenza, le aziende devono prendere in considerazione più fattori e metodi per determinare il migliore approccio all'etichettatura. Poiché ciascun metodo di etichettatura dei dati ha i suoi vantaggi e svantaggi, si consiglia una valutazione dettagliata della complessità dell'attività, oltre a dimensione, ambito e durata del progetto.
Ecco alcuni percorsi per l'etichettatura dei dati:
Il compromesso generale dell'etichettatura dei dati è rappresentato dal fatto che, anche se può ridurre il tempo di scalabilità per un'azienda, tende ad avere un costo. Dati più accurati generalmente migliorano le previsioni del modello, quindi, nonostante il suo costo elevato, il valore che fornisce di solito vale l'investimento. Poiché l'annotazione di dati fornisce maggiore contesto ai dataset, migliora le prestazioni dell'analisi dei dati esplorativa oltre a quelle delle applicazioni di ML e AI. Ad esempio, l'etichettatura dei dati produce risultati di ricerca più pertinenti nelle varie piattaforme di motore di ricerca e suggerimenti di prodotti più validi nelle piattaforme di e-commerce. Approfondiamo altri vantaggi e sfide chiave:
L'etichettatura dei dati fornisce agli utenti, ai team e alle aziende maggiore contesto, qualità e utilizzabilità. In particolare, puoi aspettarti:
L'etichettatura dei dati non è esente da sfide. In particolare, alcune delle sfide più comuni sono:
Indipendentemente dall'approccio, le seguenti best practice ottimizzano accuratezza ed efficienza dell'etichettatura dei dati:
Sebbene l'etichettatura dei dati possa migliorare accuratezza, qualità e utilizzabilità in molteplici contesti in vari settori, i suoi casi di utilizzo più rilevanti includono:
Il servizio NLP (natural language processing) per l'analytics di testo avanzata
Consenti carichi di lavoro AI e consolida il tuo storage di big data primario e secondario grazie a un'architettura di storage di oggetti on-premise, leader nel settore
Osserva, prevedi e previeni problemi con il monitoraggio remoto avanzato basato sull'AI e la visione artificiale per asset e operazioni