Cos'è l'etichettatura dei dati?
Esplora gli usi e i vantaggi dell'etichettatura dei dati, compresi i diversi approcci e le best practice
sfondo nero e blu
Cos'è l'etichettatura dei dati?

L'etichettatura dei dati, o annotazione dei dati, fa parte della fase di pre-elaborazione quando si sviluppa un modello di ML (machine learning). Richiede l'identificazione dei dati non elaborati (ad es. immagini, file di testo, video) e quindi l'aggiunta di una o più etichette a tali dati per specificare il contesto per i modelli, consentendo al modello di machine learning di fare previsioni accurate.

L'etichettatura dei dati supporta diversi casi di utilizzo di machine learning e deep learning, inclusi visione artificiale (computer vision) ed NLP (Natural Language Processing - elaborazione del linguaggio naturale).

Prodotti in evidenza

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

Come funziona l'etichettatura dei dati?

Le aziende integrano software, processi e annotatori di dati per ripulire, strutturare ed etichettare dati. Questi dati di addestramento diventano la base per i modelli di machine learning. Queste etichette consentono agli analisti di isolare variabili all'interno di dataset e questo, a sua volta, permette la selezione di predittori di dati ottimali per modelli di ML. Le etichette identificano i vettori di dati appropriati da inserire per l'addestramento del modello, dove il modello, quindi, impara a fare le migliori previsioni.

Insieme all'assistenza della macchina, le attività di etichettatura dei dati richiedono una partecipazione "HITL (human-in-the-loop)". HITL si avvale del giudizio di "etichettatori di dati" umani ai fini della creazione, dell'addestramento, dell'ottimizzazione e della verifica di modelli di ML. Essi aiutano a guidare il processo di etichettatura dei dati mediante l'inserimento di dataset di modelli che sono i più applicabili a un determinato progetto.

Confronto tra dati etichettati e dati non etichettati
 

I computer utilizzano dati etichettati e non etichettati per addestrare modelli di ML, ma qual è la differenza?

  • I dati etichettati vengono utilizzati  nell'apprendimento supervisionato, mentre i dati non etichettati vengono utilizzati  nell'apprendimento senza supervisione
  • I dati etichettati sono più difficili da acquisire e memorizzare (cioè richiedono tempo e sono costosi), mentre i dati non etichettati sono più facili da acquisire e memorizzare.
  • I dati etichettati possono essere utilizzati per determinare insight utilizzabili (ad esempio, attività di previsione), mentre i dati non etichettati sono più limitati nella loro utilità. I metodi di apprendimento senza supervisione possono aiutare a rilevare nuovi cluster di dati, consentendo nuove categorizzazioni in fase di etichettatura.

I computer possono anche utilizzare dati combinati per un apprendimento semi-supervisionato, che riduce l'esigenza di dati etichettati manualmente mentre fornisce un grande dataset con annotazioni.

Approcci all'etichettatura dei dati

L'etichettatura dei dati è una fase critica nello sviluppo di un modello di ML ad elevate prestazioni. Nonostante l'etichettatura sembri semplice, non è sempre facile da implementare. Di conseguenza, le aziende devono prendere in considerazione più fattori e metodi per determinare il migliore approccio all'etichettatura. Poiché ciascun metodo di etichettatura dei dati ha i suoi vantaggi e svantaggi, si consiglia una valutazione dettagliata della complessità dell'attività, oltre a dimensione, ambito e durata del progetto.

Ecco alcuni percorsi per l'etichettatura dei dati:

  • Etichettatura interna - l'utilizzo di esperti di data science interni semplifica il tracciamento, fornisce maggiore accuratezza e migliora la qualità. Tuttavia, questo approccio normalmente richiede più tempo e favorisce le grandi aziende con ampie risorse.
  • Etichettatura sintetica - questo approccio genera nuovi dati del progetto da dataset preesistenti, il che migliora la qualità dei dati e l'efficienza in termini di tempo. Tuttavia, l'etichettatura sintetica richiede un'elevata potenza di calcolo, che può far aumentare il prezzo.
  • Etichettatura programmatica - questo processo automatizzato di etichettatura dei dati utilizza gli script per ridurre il tempo impiegato e la necessità di annotazione umana. Tuttavia, la possibilità di problemi tecnici richiede che l'HITL rimanga parte del processo di QA (Quality Assurance - controllo qualità).
  • Esternalizzazione - questa può essere una scelta ottimale per progetti temporanei di alto livello, ma anche lo sviluppo e la gestione di un flusso di lavoro orientato ai freelance può essere oneroso in termini di tempo. Anche se le piattaforme di freelance forniscono informazioni complete sui candidati per facilitare il processo di verifica delle credenziali, l'assunzione di team per l'etichettatura dei dati gestiti mette a disposizione personale con verifica preliminare delle credenziali e strumenti di etichettatura dei dati precostituiti.
  • Crowdsourcing - questo approccio è più rapido e più conveniente economicamente grazie alla sua funzionalità di micro-tasking e alla distribuzione basata sul web. Tuttavia, la qualità dei lavoratori, il controllo qualità e la gestione dei progetti variano nelle diverse piattaforme di crowdsourcing. Uno degli esempi più famosi di etichettatura dati in crowdsourcing è Recaptcha. Questo progetto era duplice in quanto controllava l'eventuale presenza di bot migliorando contemporaneamente l'annotazione di dati delle immagini. Ad esempio, una richiesta Recaptcha chiede a un utente di identificare tutte le foto contenenti un'auto per dimostrare di essere umano e, quindi, questo programma può procedere ad un'autoverifica in base ai risultati di altri utenti. L'input di questi utenti ha fornito un database di etichette per una gamma di immagini.
Vantaggi e sfide dell'etichettatura dei dati

Il compromesso generale dell'etichettatura dei dati è rappresentato dal fatto che, anche se può ridurre il tempo di scalabilità per un'azienda, tende ad avere un costo. Dati più accurati generalmente migliorano le previsioni del modello, quindi, nonostante il suo costo elevato, il valore che fornisce di solito vale l'investimento. Poiché l'annotazione di dati fornisce maggiore contesto ai dataset, migliora le prestazioni dell'analisi dei dati esplorativa oltre a quelle delle applicazioni di ML e AI. Ad esempio, l'etichettatura dei dati produce risultati di ricerca più pertinenti nelle varie piattaforme di motore di ricerca e suggerimenti di prodotti più validi nelle piattaforme di e-commerce. Approfondiamo altri vantaggi e sfide chiave:

Vantaggi
 

L'etichettatura dei dati fornisce agli utenti, ai team e alle aziende maggiore contesto, qualità e utilizzabilità. In particolare, puoi aspettarti:

  • Previsioni più precise: un'accurata etichettatura dei dati garantisce un controllo qualità più valido all'interno degli algoritmi di machine learning, consentendo l'addestramento del modello e la produzione dell'output previsto. Altrimenti, come recita il vecchio detto, "spazzatura dentro, spazzatura fuori." Dati correttamente etichettati  forniscono la "verità di base" (ovvero, in che modo le etichette riflettono scenari del "mondo reale") per l'esecuzione di test e l'iterazione dei modelli successivi.
  • Migliore utilizzabilità dei dati: l'etichettatura dei dati può anche migliorare l'utilizzabilità delle variabili dei dati all'interno di un modello. Ad esempio, potresti riclassificare una variabile categorica come variabile binaria per renderla più utilizzabile per un modello.  L'aggregazione dei dati in questo modo può ottimizzare il modello riducendo il numero di variabili del modello o abilitare l'inclusione di variabili di controllo. Che tu stia utilizzando i dati per creare modelli di visione artificiale (ad esempio mettendo riquadri di delimitazione intorno agli oggetti) o modelli NLP (ad esempio, classificando il testo per il sentiment sui social media), l'utilizzo di dati di alta qualità è una priorità assoluta.

Sfide
 

L'etichettatura dei dati non è esente da sfide. In particolare, alcune delle sfide più comuni sono:

  • Costoso e dispendioso in termini di tempo: anche se l'etichettatura dei dati è di cruciale importanza per i modelli di machine learning, può essere dispendiosa in termini di risorse e tempo. Se un'azienda adotta un approccio più automatizzato, i team tecnici avranno ancora necessità di configurare delle pipeline di dati prima dell'elaborazione dei dati e l'etichettatura manuale sarà quasi sempre costosa e dispendiosa in termini di tempo.
  • Soggetta all'errore umano: questi approcci di etichettatura sono anche soggetti all'errore umano (ad esempio, errori di codifica, errori di immissione manuale), il che può compromettere la qualità dei dati. Questo, a sua volta, porta a un'elaborazione e una modellazione dei dati non accurate. I controlli per garantire la qualità sono fondamentali per preservare la qualità dei dati.
Best practice di etichettatura dei dati

Indipendentemente dall'approccio, le seguenti best practice ottimizzano accuratezza ed efficienza dell'etichettatura dei dati:

  • Interfacce di attività intuitive e semplificate riducono al minimo il carico cognitivo e la commutazione di contesto per gli etichettatori umani.
  • Consenso: misura il grado di accordo tra molteplici etichettatori (umani o macchine). Un punteggio di consenso si calcola dividendo la somma delle etichette concordanti per il numero totale delle etichette per ogni asset.
  • Controllo etichette: verifica l'accuratezza delle etichette e le aggiorna come necessario.
  • Apprendimento per trasferimento:  prende uno o più modelli pre-addestrati da un dataset e li applica a un altro. Questo può includere un apprendimento per più attività, in cui molteplici attività vengono apprese in tandem.
  • Apprendimento attivo: una categoria di algoritmi di ML e un sottoinsieme di apprendimento semi-supervisionato che aiuta gli esseri umani a identificare i dataset appropriati. Gli approcci di apprendimento attivo includono:
    • Sintesi di query di appartenenza - genera un'istanza sintetica e ne richiede la relativa etichetta.
    • Campionamento basato su pool - classifica tutte le istanze non etichettate in base alla misura dell'informatività e seleziona le migliori query da annotare.
    • Campionamento selettivo basato sul flusso - seleziona le istanze non etichettate una per una e le etichetta o le ignora a seconda della loro informatività o incertezza.
Casi di utilizzo dell'etichettatura dei dati

Sebbene l'etichettatura dei dati possa migliorare accuratezza, qualità e utilizzabilità in molteplici contesti in vari settori, i suoi casi di utilizzo più rilevanti includono:

  • Visione artificiale (o computer vision): un campo dell'AI che utilizza dati di addestramento per creare un modello di visione artificiale che consente la segmentazione di immagini e l'automazione delle categorie, identifica i punti chiave in un'immagine e rileva l'ubicazione degli oggetti. In effetti, IBM offre una piattaforma di visione artificiale, Maximo Visual Inspection, che consente agli esperti in materia di etichettare e addestrare modelli di visione di deep learning che possono essere implementati nel cloud, in dispositivi edge e in data center locali. La visione artificiale è utilizzata in molteplici settori - dall'energia e i servizi pubblici alla produzione industriale e all'automotive. Entro il 2022, si prevede che questo campo in crescita raggiunga un valore di mercato di 48,6 miliardi di dollari.
  • NLP (Natural language processing - elaborazione del linguaggio naturale): un ramo dell'AI che combina la linguistica computazionale con modelli statistici, di machine learning e di deep learning per identificare e contrassegnare mediante tag sezioni di testo importanti, che generano dati di addestramento per l'analisi del sentiment, il riconoscimento dei nomi delle entità e il riconoscimento ottico dei caratteri (OCR, optical character recognition). L'NLP è sempre più utilizzata in soluzioni aziendali, come ad esempio rilevamento della posta indesiderata, traduzione automatica,  riconoscimento vocale, riepilogo di un testo, assistenti virtuali e chatbot e sistemi GPS a comando vocale. Questo ha reso l'NLP una componente cruciale nell'evoluzione dei processi di business mission-critical.
Soluzioni correlate
NLU (natural language understanding)

Il servizio NLP (natural language processing) per l'analytics di testo avanzata

Esplora IBM Watson Natural Language Understanding
Storage di oggetti su cloud

Consenti carichi di lavoro AI e consolida il tuo storage di big data primario e secondario grazie a un'architettura di storage di oggetti on-premise, leader nel settore

Esplora IBM Cloud Object Storage
Ispezione visiva

Osserva, prevedi e previeni problemi con il monitoraggio remoto avanzato basato sull'AI e la visione artificiale per asset e operazioni

Esplora IBM Maximo Application Suite Visual Inspection
Passa alla fase successiva

IBM offre ulteriori risorse per aiutare a superare le sfide dell'etichettatura dei dati e ottimizzare l'esperienza complessiva di etichettatura dei dati. Indipendentemente dalle dimensioni del progetto e dalla tempistica, IBM Cloud e IBM Watson possono migliorare i processi di addestramento dei dati, espandere le iniziative di classificazione dei dati e semplificare modelli di previsione complessi.

Esplora Watson Natural Language Understanding