Apprendimento supervisionato e non supervisionato a confronto: qual è la differenza?

Frattale simile a una sinapsi con molte terminazioni nervose

Autore

Julianna Delua

SME, IBM Analytics, Data Science/Machine Learning

Il mondo diventa ogni giorno "più smart" e, per stare al passo con le aspettative dei consumatori, le aziende utilizzano sempre più algoritmi di machine learning per semplificare le cose. Può vederli in uso nei dispositivi degli utenti finali (tramite il riconoscimento facciale per sbloccare gli smartphone) o per rilevare frodi con carta di credito (come attivare avvisi per acquisti insoliti).

Nell'ambito dell'intelligenza artificiale (AI) e del machine learning, ci sono due approcci di base: apprendimento supervisionato e apprendimento non supervisionato. La differenza principale è che uno utilizza dati etichettati per aiutare a prevedere i risultati, mentre l'altro no. Tuttavia, ci sono alcune sfumature tra i due approcci e aree chiave in cui uno supera l'altro. Questo post chiarisce le differenze in modo da poter scegliere l'approccio migliore per la sua situazione.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Cosa è l'apprendimento supervisionato?

L'apprendimento supervisionato è un approccio di machine learning definito dall'uso di set di dati etichettati. Questi set di dati sono progettati per addestrare o "supervisionare" gli algoritmi affinché classifichino i dati o prevedano i risultati in modo accurato. Utilizzando input e output etichettati, il modello può misurarne la precisione e apprendere nel tempo.

L'apprendimento supervisionato può essere suddiviso in due tipi di problemi durante il data mining: classificazione e regressione.

  • I problemi di classificazione utilizzano un algoritmo per assegnare con precisione i dati dei test in categorie specifiche, come separare le mele dalle arance. Oppure, nel mondo reale, gli algoritmi di apprendimento supervisionato possono essere utilizzati per classificare lo spam in una cartella separata dalla posta in arrivo. Classificatori lineari, macchine vettoriali di supporto, decision tree e random forest sono tutti tipi comuni di algoritmi di classificazione.

  • La regressione è un altro tipo di metodo di apprendimento supervisionato che utilizza un algoritmo per comprendere la relazione tra variabili dipendenti e indipendenti. I modelli di regressione sono utili per prevedere valori numerici sulla base di diversi dati, come le proiezioni dei ricavi delle vendite per una determinata azienda. Alcuni algoritmi di regressione popolari sono la regressione lineare, la regressione logistica e la regressione polinomiale.
AI Academy

AI all'opera nell'ambito del servizio clienti

Scopri come l'AI generativa può offrire ai clienti un'esperienza più fluida e aumentare la produttività dell'organizzazione in queste tre aree chiave: self-service, agenti umani e operazioni di contact center.

Che cos'è l'apprendimento non supervisionato?

L'apprendimento non supervisionato utilizza algoritmi di machine learning per analizzare e raggruppare set di dati non etichettati. Questi algoritmi scoprono schemi nascosti nei dati che non hanno bisogno dell'intervento umano (quindi, sono "non supervisionati").

I modelli di apprendimento non supervisionato vengono utilizzati per tre compiti principali: cluster, associazione e riduzione della dimensionalità.

  • Il clustering è una tecnica di data mining che raggruppa dati non etichettati in base alle loro somiglianze o differenze. Ad esempio, gli algoritmi di cluster assegnano punti dati simili in gruppi, dove il valore K rappresenta la dimensione del raggruppamento e la granularità. Questa tecnica è utile per la segmentazione del mercato, la compressione delle immagini e così via.

  • L'associazione è un altro tipo di metodo di apprendimento non supervisionato che utilizza regole diverse per trovare relazioni tra le variabili in un determinato set di dati. Questi metodi sono spesso utilizzati per l'analisi del paniere di mercato e i motori di raccomandazione, sulla falsariga dei consigli "I clienti che hanno acquistato questo articolo hanno acquistato anche".

  • La riduzione della dimensionalità è una tecnica di apprendimento che viene utilizzata quando il numero di caratteristiche (o dimensioni) in un determinato set di dati è troppo elevato. Riduce il numero di input di dati a una dimensione gestibile, preservando al contempo l'integrità dei dati. Spesso, questa tecnica viene utilizzata nella fase di preelaborazione dei dati, ad esempio quando gli autocodificatori rimuovono il rumore dai dati visivi per migliorare la qualità delle immagini.

La differenza principale: i dati etichettati

La principale distinzione tra i due approcci è l'uso di set di dati etichettati. In parole povere, l'apprendimento supervisionato utilizza dati di input e output etichettati, mentre un algoritmo di apprendimento non supervisionato no.

Nell'apprendimento supervisionato, l'algoritmo "impara" dal set di dati di addestramento facendo previsioni sui dati in modo iterativo e aggiustando la risposta corretta. Sebbene i modelli di apprendimento supervisionato siano solitamente più accurati dei modelli di apprendimento non supervisionato, richiedono un intervento umano iniziale per etichettare i dati in modo adeguato. Ad esempio, un modello di apprendimento supervisionato può prevedere la durata del tuo tragitto giornaliero in base all'ora del giorno, alle condizioni meteorologiche e così via. Ma prima bisogna addestrarlo a capire che la pioggia prolunga i tempi di guida.

I modelli di apprendimento non supervisionato, invece, lavorano da soli per scoprire la struttura intrinseca dei dati non etichettati. Ricorda che richiedono comunque un intervento umano per convalidare le variabili di output. Ad esempio, un modello di apprendimento non supervisionato può identificare che gli acquirenti online acquistano spesso gruppi di prodotti contemporaneamente. Tuttavia, un analista di dati dovrebbe convalidare che è logico che un motore di raccomandazioni raggruppi i vestiti per bambini con un ordine di pannolini, omogeneizzato e bicchierini con beccuccio.

Altre differenze chiave

  • Obiettivi: nell'apprendimento supervisionato, l'obiettivo è prevedere i risultati per i nuovi dati, sapere in anticipo il tipo di risultati che ci si aspetta. Con un algoritmo di apprendimento non supervisionato, l'obiettivo è ottenere insight da grandi volumi di nuovi dati. Il machine learning stesso determina ciò che è diverso o interessante dal set di dati.

  • Applicazioni: i modelli di apprendimento supervisionato sono ideali per il rilevamento dello spam, l'analisi del sentiment, le previsioni meteorologiche e le previsioni dei prezzi, tra le altre. Al contrario, l'apprendimento non supervisionato è perfetto per il rilevamento di anomalie, i motori di raccomandazione, i profili dei clienti e l'imaging medico.

  • Complessità: l'apprendimento supervisionato è un metodo di machine learning semplice, in genere calcolato utilizzando programmi come R o Python. Nell'apprendimento non supervisionato, ti servono strumenti potenti per lavorare con grandi quantità di dati non classificati. I modelli di apprendimento non supervisionato sono complessi dal punto di vista computazionale, perché hanno bisogno di un ampio set di addestramento per produrre i risultati previsti.

  • Svantaggi: i modelli di apprendimento supervisionato possono richiedere molto tempo per essere addestrati, e le etichette per le variabili di input e output richiedono competenze. Nel frattempo, i metodi di apprendimento non supervisionato possono avere risultati estremamente imprecisi, a meno che non ci sia un intervento umano per convalidare le variabili di output.

Apprendimento supervisionato e non supervisionato: qual è il migliore per te?

La scelta dell'approccio giusto per la tua situazione dipende dal modo in cui i tuoi data scientist valutano la struttura e il volume dei tuoi dati, nonché dal caso d'uso. Per prendere una decisione, assicurati di fare quanto segue:

  • Valuta i tuoi dati di input: sono dati etichettati o non etichettati? Hai a disposizione esperti in grado di supportare un'etichettatura aggiuntiva?

  • Definisci i tuoi obiettivi: hai un problema ricorrente e ben definito da risolvere o l'algoritmo dovrà prevedere nuovi problemi?

  • Controlla le tue opzioni per gli algoritmi: esistono algoritmi con la stessa dimensionalità di cui hai bisogno (numero di caratteristiche, attributi o caratteristiche)? Sono in grado di supportare il volume e la struttura dei dati?

Classificare i big data può essere una vera e propria sfida nell'apprendimento supervisionato, ma i risultati sono estremamente accurati e affidabili. L'apprendimento non supervisionato, invece, può gestire grandi volumi di dati in tempo reale, ma manca di trasparenza nel modo in cui i dati vengono raggruppati e aumenta il rischio di risultati inaccurati. È qui che entra in gioco l'apprendimento semi-supervisionato.

Apprendimento semi-supervisionato: il meglio di entrambi i mondi

Non riesce a decidere se utilizzare l'apprendimento supervisionato o non supervisionato? L'apprendimento semi-supervisionato è la via di mezzo ideale, in cui si utilizza un set di dati di addestramento con dati etichettati e non etichettati. È particolarmente utile quando è difficile estrarre le caratteristiche rilevanti e quando si dispone di un volume elevato di dati.

L'apprendimento semi-supervisionato è ideale per le immagini mediche, in cui una piccola quantità di dati di addestramento può portare a un notevole miglioramento dell'accuratezza. Ad esempio, un radiologo può etichettare un piccolo sottoinsieme di scansioni TC per tumori o malattie, in modo che la macchina possa prevedere con maggiore precisione quali pazienti potrebbero richiedere più cure mediche.

Scopri di più sull'apprendimento supervisionato e non supervisionato

I modelli di machine learning sono un modo efficace per ottenere insight sui dati che migliorano il nostro mondo. Per maggiori informazioni sugli algoritmi specifici utilizzati con l'apprendimento supervisionato e non supervisionato, ti invitiamo ad approfondire gli articoli di Learn Hub su queste tecniche. Ti consigliamo anche di dare un'occhiata al post sul blog che fa un ulteriore passo avanti, con uno sguardo dettagliato al deep learning e alle reti neurali.

 

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live