Cosa sono i dati di addestramento?

Cosa sono i dati di addestramento?

I dati di formazione sono informazioni utilizzate per insegnare a un modello di machine learning come fare previsioni, riconoscere modelli o generare contenuti. Dopo che un algoritmo ha elaborato una grande quantità di dati, questi vengono considerati "addestrati" e utilizzabili per numerose applicazioni. Ma senza dati di formazione, nemmeno algoritmi sofisticati sono utili, come uno studente brillante che non ha studiato il materiale per un test.

Tutto il machine learning inizia con un set di dati o una raccolta di dati. Un set di dati può essere composto da fogli di calcolo, filmati video, pagine web, PDF o qualsiasi altro tipo di dati. In generale, più dati di addestramento vengono inseriti in un modello, migliori saranno le sue prestazioni. Ma non è solo la quantità di dati: anche la loro qualità è molto importante.

I dati di addestramento dell'AI sono composti da caratteristiche, chiamate anche attributi, che descrivono i dati. Ad esempio, un set di dati su un'attrezzatura di fabbrica potrebbe includere la temperatura, la velocità di oscillazione e il tempo dell'ultima riparazione. Questi dati vengono inviati a un algoritmo di machine learning, un insieme di istruzioni espresse attraverso un pezzo di codice che elabora un input di dati per creare un output. Fornire dati all'algoritmo significa dargli dati di input, che vengono poi elaborati e analizzati per generare l'output. Il risultato di questo processo è un modello matematico addestrato. Questi modelli sono alla base di quasi tutte le recenti innovazioni nel campo dell'intelligenza artificiale.

Alcuni modelli sono utilizzati per l'elaborazione del linguaggio naturale (NLP), che può essere utilizzato per insegnare alle macchine a leggere e parlare in linguaggio umano. La computer vision consente ad altri modelli di interpretare le informazioni visive. Ma tutto inizia con i dati di addestramento.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Tipi di formazione

Diversi tipi di algoritmi di apprendimento utilizzano approcci diversi ai dati di addestramento. L'apprendimento supervisionato utilizza dati etichettati, mentre l'apprendimento non supervisionato utilizza dati non etichettati. L'apprendimento semi-supervisionato combina entrambi.

Modelli di formazione per l'apprendimento supervisionato

L'apprendimento supervisionato è una tecnica di machine learning che utilizza set di dati etichettati per addestrare i modelli AI a identificare i modelli sottostanti nei punti dati. I dati etichettati includono caratteristiche ed etichette, output corrispondenti che il modello utilizza per comprendere la relazione tra i due.

Molte aziende assumono grandi team di annotatori di dati umani, che a volte sono assistiti da macchine. Questi annotatori richiedono spesso competenze di dominio per garantire che i dati siano etichettati correttamente. Ad esempio, per etichettare i dati legali, gli annotatori potrebbero aver bisogno di un background giuridico. Il processo che prevede l'utilizzo di annotatori umani per garantire la corretta etichettatura viene talvolta definito "intervento umano nel ciclo".

Un classico esempio di apprendimento supervisionato è il rilevamento dello spam. Per insegnare a un modello a identificare lo spam, può essere esposto a un set di dati composto da migliaia di e-mail, ognuna etichettata dagli umani come "spam" o "non spam". Il modello esaminerà i pattern nelle e-mail, notandone vari. Ad esempio, le e-mail con la parola "gratis" nella riga dell'oggetto hanno maggiori probabilità di essere spam. Il modello calcolerà la probabilità statistica che la parola "gratis" nell'oggetto corrisponda all'etichetta "spam". Quindi, quando viene fornita una nuova e-mail senza etichetta, il modello può applicare quel calcolo, insieme a molti altri, per determinare se la nuova e-mail è spam o meno.

Questo tipo di apprendimento automatico è detto "supervisionato" perché prevede la supervisione umana per etichettare tutti quei dati.

Modelli di formazione per l'apprendimento non supervisionato

I modelli di apprendimento non supervisionato lavorano da soli per scoprire la struttura intrinseca dei dati non etichettati. Mentre l'apprendimento supervisionato è utile per mappare gli input con gli output, l'apprendimento non supervisionato è più adatto per trovare pattern, strutture e relazioni all'interno dei dati stessi, senza alcuna guida su cosa cercare.

Ad esempio, immaginiamo che un inserzionista voglia raggruppare i clienti in segmenti distinti in base al comportamento di acquisto senza conoscere le categorie in anticipo. Un set di dati non etichettati può includere caratteristiche come la frequenza degli acquisti, il valore medio degli ordini, i tipi di prodotti acquistati e il tempo trascorso dall'ultimo acquisto, ma non ha colonne per "tipo di cliente". Questo è ciò che il modello sta cercando di capire. Un algoritmo di clustering può essere utilizzato per identificare tre cluster:

  1. Acquirenti frequenti e ad alta spesa
     

  2. Acquirenti occasionali durante gli sconti
     

  3. Clienti nuovi o occasionali

Il modello ha appreso i modelli da solo e ha creato questi raggruppamenti direttamente dal set di dati di addestramento.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Preparazione dei dati di addestramento

I dati sono tutto intorno a noi. La popolazione globale genera immense quantità di dati ogni secondo della giornata. Ma i dati non elaborati di solito non sono utili per l'addestramento dei modelli. La garanzia della qualità è fondamentale. Innanzitutto, i dati devono essere pre-elaborati attraverso una pipeline di dati in più fasi. Questo può essere un processo complesso per i data scientist, che comprende gran parte dell'ambito di un progetto di machine learning, che richiede strumenti e infrastrutture sofisticati per la data science. Dati di scarsa qualità possono introdurre rumore e bias, che impediscono ai modelli di machine learning di fare previsioni accurate, mentre i dati di addestramento di alta qualità consentono ai modelli di produrre risultati più affidabili in innumerevoli casi d'uso, dall'automazione alla traduzione al processo decisionale basato sui dati

Raccolta dei dati

Per prima cosa bisogna raccogliere i dati. Per i sistemi AI come i veicoli autonomi o le smart home, la raccolta dei dati potrebbe avvenire utilizzando sensori o dispositivi IoT. Gli enti governativi, gli istituti di ricerca e le imprese forniscono spesso set di dati pubblici. Gli inserzionisti utilizzano i clickstream, l'invio di moduli e i dati comportamentali degli utenti.

Pulizia e trasformazione dei dati

I dati non elaborati spesso contengono valori mancanti, duplicati e altri errori. Una volta raccolti, i dati devono essere puliti per correggere questi errori. Questo può essere qualcosa di semplice come la standardizzazione dei formati o assicurarsi che le date appaiano in formato MM/GG/AAAA. Dopo la pulizia, i dati devono spesso essere trasformati in un formato più facile da elaborare per gli algoritmi. L'ingegneria delle funzionalità preelabora i dati non elaborati in un formato leggibile dalla macchina. Ottimizza le prestazioni del modello ML trasformando e selezionando le funzionalità pertinenti.

Suddivisione del set di dati

Per valutare quanto bene un modello si generalizza a nuovi dati, il set di dati è in genere diviso in tre set. Il primo è un set di addestramento che viene utilizzato per regolare i parametri di un modello per trovare la migliore corrispondenza tra le sue previsioni e i dati, un processo di addestramento chiamato "adattamento". Il secondo è un set di dati di convalida che viene utilizzato per mettere a punto gli iperparametri e prevenire l'overfitting. Infine, un set di dati di test viene utilizzato per la valutazione finale delle prestazioni del modello.

Etichettatura dei dati

L'etichettatura dei dati, a volte chiamata "annotazione umana", è il processo di aggiunta di etichette significative ai dati non elaborati in modo che un modello possa imparare da essi. Le etichette possono descrivere qualsiasi proprietà dei dati. Ad esempio, un post sui social media che dice "Questo prodotto è terribile" può essere etichettato come "sentiment negativo" in un processo noto come analisi del sentiment. Un commentatore umano potrebbe etichettare la foto di un cane come "cane". Una transazione bancaria può essere etichettata come "fraudolenta".

Ulteriori fasi possono includere la strutturazione dei dati, l'incremento e il versioning. Alcuni workflow includono un feedback in cui l'analisi rivela dove sono necessari dati più o migliori o dove è possibile filtrare i dati non utili.

Tendenze nei dati di formazione

Poiché i dati sono importanti quanto l'architettura del modello, si presta molta attenzione all'ottimizzazione del processo di formazione dei dati. I dati sintetici rappresentano un ambito di innovazione. Invece di raccogliere enormi set di dati del mondo reale, le organizzazioni stanno ora generando dati sintetici utilizzando l'AI.

Un'altra tendenza riguarda i set di dati più piccoli e di qualità superiore. I grandi modelli non hanno solo bisogno di più dati, ma anche di dati migliori. I data scientist stanno creando set di dati più piccoli o set di dati specifici per attività, utili per casi d'uso ristretti. Ad esempio, un LLM utilizzato nel campo dei servizi legali potrebbe essere formato esclusivamente su corpora giuridici per ottenere risultati migliori.

Il lavoro di pre-elaborazione dei dati descritto in questo articolo può essere eseguito automaticamente con l'AI. Gli algoritmi più recenti aiutano a pulire i set di dati, a rimuovere testo di bassa qualità, contenuti duplicati e materiale standard irrilevante, risparmiando tempo e calcolo.

Queste sono solo alcune tendenze in un settore in rapido sviluppo.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live