Cos'è l'etichettatura dei dati?

L'etichettatura dei dati, o annotazione dei dati, fa parte della fase di pre-elaborazione durante lo sviluppo di un modello di machine learning (ML).

L'etichettatura dei dati richiede l'identificazione dei dati non elaborati (ad esempio immagini, file di testo, video) e quindi l'aggiunta di una o più etichette a tali dati per specificarne il contesto per i modelli, consentendo al modello di machine learning di fare previsioni accurate.

L'etichettatura dei dati è alla base di diversi casi d'uso di machine learning e deep learning, tra cui la computer vision e l'elaborazione del linguaggio naturale (NLP).

Il data store per l'AI

Scopri la potenza dell’integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l’AI e le opportunità di ottimizzazione dei costi.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

Come funziona l'etichettatura dei dati?

Le aziende integrano software, processi e annotatori di dati per pulire, strutturare e etichettare i dati. Questi dati di addestramento diventano la base per i modelli di machine learning. Queste etichette consentono agli analisti di isolare le variabili all'interno dei set di dati e questo, a sua volta, consente la selezione di predittori di dati ottimali per i modelli di apprendimento automatico (ML). Le etichette identificano i vettori di dati appropriati da inserire per l'addestramento del modello, dove il modello, quindi, impara a fare le migliori previsioni.

Oltre all'assistenza delle macchine, le attività di etichettatura dei dati richiedono il contributo dell'approccio "human-in-the-loop (HITL)". L'HITL sfrutta il giudizio di “etichettatori di dati” umani per creare, addestrare, perfezionare e testare modelli di ML. Questi aiutano a guidare il processo di etichettatura dei dati fornendo ai modelli i set di dati più applicabili a un determinato progetto.

Dati etichettati vs. dati non etichettati

I computer utilizzano dati etichettati e non etichettati per addestrare i modelli di ML, ma qual è la differenza?

I dati etichettati vengono utilizzati nell'apprendimento supervisionato, mentre quelli non etichettati vengono utilizzati nell'apprendimento non supervisionato.
I dati etichettati sono più difficili da acquisire e archiviare (ad es. con maggiori costi in termini di tempo e denaro), mentre i dati non etichettati sono più facili da acquisire e memorizzare.
I dati etichettati possono essere utilizzati per determinare insight fruibili (ad esempio attività di forecasting), mentre i dati non etichettati hanno un'utilità più limitata. I metodi di apprendimento non supervisionato possono aiutare a scoprire nuovi cluster di dati, consentendo nuove categorizzazioni durante l'etichettatura.

I computer possono anche utilizzare dati combinati per l'apprendimento semi-supervisionato, che riduce la necessità di etichettare manualmente i dati fornendo al contempo un ampio set di dati annotati.

Approcci all'etichettatura dei dati

L'etichettatura dei dati è un passo fondamentale nello sviluppo di un modello di apprendimento automatico (ML) ad alte prestazioni. Anche se l'etichettatura sembra semplice, non è sempre facile da implementare. Di conseguenza, le aziende devono considerare diversi fattori e metodi per determinare l'approccio migliore all'etichettatura. Poiché ogni metodo di etichettatura dei dati ha i suoi pro e contro, si consiglia una valutazione dettagliata della complessità del compito, nonché delle dimensioni, dell'ambito e della durata del progetto.

Di seguito sono riportati alcuni percorsi possibili per l'etichettatura dei dati:

Etichettatura interna - L'utilizzo di esperti interni di data science semplifica il tracciamento, offre una maggiore precisione e migliora la qualità. Tuttavia, questo approccio richiede in genere più tempo e favorisce le grandi aziende con risorse estese.
Etichettatura sintetica: questo approccio genera nuovi dati di progetto da set di dati preesistenti, il che migliora la qualità dei dati e l'efficienza in termini di tempo. Tuttavia, l'etichettatura sintetica richiede una grande potenza di calcolo, che può provocare un aumento dei prezzi.
Etichettatura programmatica - Questo processo automatizzato di etichettatura dei dati utilizza degli script per ridurre il consumo di tempo e la necessità di annotazioni umane. Tuttavia, la possibilità di problemi tecnici richiede a HITL di rimanere parte del processo di controllo qualità (QA).
Outsourcing: può essere una scelta ottimale per progetti temporanei di alto livello, ma lo sviluppo e la gestione di un workflow orientato ai freelance può richiedere molto tempo. Sebbene le piattaforme di freelance forniscano informazioni complete sui candidati per facilitare il processo di selezione, l'assunzione di team di etichettatura dei dati gestiti fornisce personale già verificato e strumenti di etichettatura dei dati precostituiti.
Crowdsourcing: questo approccio è più rapido ed economico grazie alla capacità di micro-tasking e alla distribuzione via web. Tuttavia, la qualità dei lavoratori, il controllo qualità e la gestione dei progetti variano a seconda delle piattaforme di crowdsourcing. Uno degli esempi più famosi di etichettatura di dati in crowdsourcing è Recaptcha. Questo progetto era duplice in quanto controllava i bot e allo stesso tempo migliorava l'annotazione dei dati delle immagini. Ad esempio, un prompt di Recaptcha chiedeva a un utente di identificare tutte le foto contenenti un'auto per dimostrare che era umano, e quindi questo programma era in grado di controllarsi autonomamente in base ai risultati degli altri utenti. L'input di questi utenti forniva un database di etichette per una serie di immagini.

Benefici e sfide della profilazione dei dati

Il compromesso generale dell'etichettatura dei dati è che se da un lato può ridurre i tempi di scalabilità di un'azienda, dall'altro tende ad avere un costo. Dati più accurati migliorano in genere le previsioni dei modelli, per cui, nonostante il costo elevato, il valore che fornisce vale di solito l'investimento. Poiché l'annotazione dei dati fornisce un maggiore contesto ai set di dati, migliora le prestazioni dell'analisi esplorativa dei dati, nonché delle applicazioni di machine learning (ML) e intelligenza artificiale (AI). Ad esempio, l'etichettatura dei dati produce risultati di ricerca più pertinenti sulle piattaforme dei motori di ricerca e migliori consigli sui prodotti sulle piattaforme di e-commerce. Diamo un'occhiata più approfondita ad altri vantaggi e sfide chiave:

Vantaggi

L'etichettatura dei dati offre a utenti, team e aziende un contesto, una qualità e un'usabilità maggiori. In particolare, ci si può aspettare:

Previsioni più precise: l'etichettatura accurata dei dati garantisce una migliore garanzia di qualità all'interno degli algoritmi di machine learning, consentendo al modello di addestrarsi e di produrre i risultati attesi. Altrimenti, come si dice nel campo dell'informatica, "garbage in, garbage out". I dati correttamente etichettati forniscono la "ground truth" (vale a dire, il modo in cui le etichette riflettono gli scenari del "mondo reale") per testare e iterare i modelli successivi.
Migliore utilizzo dei dati: l'etichettatura dei dati può anche migliorare l'usabilità delle variabili di dati all'interno di un modello. Ad esempio, è possibile riclassificare una variabile categorica come variabile binaria per renderlo più consumabile per un modello. L'aggregazione dei dati in questo modo può ottimizzare il modello riducendo il numero di variabili del modello o abilitando l'inclusione di variabili di controllo. Sia che si utilizzino i dati per creare modelli di computer vision (ad es. mettendo dei riquadri di delimitazione intorno agli oggetti) o modelli NLP (ad es. classificando il testo per il social sentiment), l'utilizzo di dati di alta qualità è una priorità assoluta.

Sfide

L'etichettatura dei dati non è un processo senza sfide. In particolare, alcune delle più comuni sono:

Tempi lunghi e costi elevati: sebbene l'etichettatura dei dati sia fondamentale per i modelli di machine learning, può essere costosa sia dal punto di vista delle risorse che del tempo. Se un'azienda adotta un approccio più automatizzato, i team di progettazione dovranno comunque impostare le pipeline di dati prima di elaborarli e l'etichettatura manuale sarà quasi sempre costosa e dispendiosa in termini di tempo.
Predisposizione all'errore umano: questi approcci di etichettatura sono anche soggetti all'errore umano (ad es. errori di codifica, errori di inserimento manuale), che possono ridurre la qualità dei dati. Questo, a sua volta, porta a un'elaborazione e una modellazione dei dati imprecise. I controlli qualità sono essenziali per garantire la qualità dei dati.

Best practice per l'etichettatura dei dati

Indipendentemente dall'approccio, le seguenti best practice ottimizzano l'accuratezza e l'efficienza dell'etichettatura dei dati:

Le interfacce intuitive e semplificate riducono al minimo il carico cognitivo e il cambio di contesto per gli etichettatori umani.
Consenso: Misura il tasso di accordo tra più etichettatori (umani o macchine). Il punteggio di consenso viene calcolato dividendo la somma delle etichette concordanti per il numero totale di etichette per asset.
Controllo delle etichette: verifica l'accuratezza delle etichette e le aggiorna secondo necessità.
Apprendimento per trasferimento: prende uno o più modelli pre-addestrati da un set di dati e li applica a un altro. Ciò può includere l'apprendimento multi-task, in cui più attività vengono apprese in tandem.
Apprendimento attivo: una categoria di algoritmi di ML e un sottoinsieme dell'apprendimento semi-supervisionato che aiuta gli esseri umani a identificare i set di dati più appropriati. Gli approcci di apprendimento attivo includono:
- Membership query synthesis: genera un'istanza sintetica e richiede un'etichetta.
- Pool-based sampling: classifica tutte le istanze non etichettate in base alla misura dell'informatività e seleziona le migliori query da annotare.
- Stream-based selective sampling : seleziona le istanze non etichettate una per una e le etichetta o le ignora a seconda della loro informatività o incertezza.

Casi d'uso dell'etichettatura dei dati

Sebbene l'etichettatura dei dati possa migliorare l'accuratezza, la qualità e l'usabilità in molteplici contesti in tutti i settori, i suoi casi d'uso più importanti includono:

Computer vision: un campo di intelligenza artificiale che utilizza i dati di training per creare un modello di computer vision che consente la segmentazione delle immagini e l'automazione delle categorie, identifica i punti chiave in un'immagine e rileva la posizione degli oggetti. Infatti, IBM offre una piattaforma di computer vision, Maximo Visual Inspection, che consente agli esperti del settore (PMI) di etichettare e addestrare modelli di deep learning vision che possono essere implementati nel cloud, nei dispositivi edge e nei data center locali. La computer vision è utilizzata in diversi settori, dall'energia e dai servizi di pubblica utilità alla produzione e all'industria automobilistica. Entro il 2022, si prevede che questo settore in crescita raggiungerà un valore di mercato di 48,6 miliardi di dollari.
Elaborazione del linguaggio naturale (NLP): una branca dell'intelligenza artificiale che combina la linguistica computazionale con modelli statistici, di machine learning e di deep learning per identificare e taggare importanti sezioni di testo che generano dati di addestramento per l'analisi del sentiment, la entity name recognition e il riconoscimento ottico dei caratteri. La NLP viene sempre più utilizzata in soluzioni aziendali come il rilevamento dello spam, la traduzione automatica, il riconoscimento vocale, la sintesi del testo, gli assistenti virtuali e i chatbot e i sistemi GPS vocali. Questo ha reso la NLP una componente fondamentale nell'evoluzione dei processi aziendali mission-critical.

Soluzioni correlate

Natural Language Understanding

Servizio di elaborazione del linguaggio naturale (NLP) per l'analytics avanzata del testo.

Esplora IBM Watson Natural Language Understanding

Cloud Object Storage

Abilita i workload AI e consolida lo storage dei big data primario e secondario con un object storage on-premise leader di settore.

Scopri IBM Cloud Object Storage

Ispezione visiva

Osserva, prevedi e previeni problemi con il monitoraggio remoto e la computer vision per asset e operazioni basati su AI.

Esplora l'ispezione visiva della IBM Maximo Application Suite

Fasi successive

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data

Prenota una demo live