Che cos'è l'apprendimento non supervisionato?

23 settembre 2021

Che cos'è l'apprendimento non supervisionato?

L'apprendimento non supervisionato, noto anche come machine learning non supervisionato , utilizza algoritmi di machine learning (ML) per analizzare e raggruppare set di dati non etichettati. Questi algoritmi scoprono modelli nascosti o raggruppamenti di dati senza la necessità dell'intervento umano.

La capacità dell'apprendimento non supervisionato di scoprire somiglianze e differenze nelle informazioni lo rende la soluzione ideale per l'analisi dei dati esplorativa, le strategie di cross-selling, la segmentazione dei clienti e il riconoscimento delle immagini.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Approcci comuni all'apprendimento non supervisionato

I modelli di apprendimento non supervisionato vengono utilizzati per tre compiti principali: cluster, associazione e riduzione della dimensionalità. Di seguito definiremo ogni metodo di apprendimento e metteremo in evidenza gli algoritmi e gli approcci comuni per eseguirli in modo efficace.

Clustering

Il clustering è una tecnica di data mining che raggruppa dati senza etichetta in base alle loro somiglianze o differenze. Gli algoritmi di clustering vengono utilizzati per elaborare oggetti di dati grezzi e non classificati in gruppi rappresentati da strutture o schemi nelle informazioni. Gli algoritmi di clustering possono essere suddivisi nei seguenti tipi: esclusivi, sovrapposti, gerarchici e probabilistici.

Clustering esclusivo e sovrapposto

Il clustering esclusivo è una forma di raggruppamento che stabilisce che un punto dati può esistere solo in un cluster. Questo può anche essere definito come clustering "hard". Il K-means clustering è un esempio comune di metodo di clustering esclusivo in cui i punti dati vengono assegnati a gruppi K, dove K rappresenta il numero di cluster in base alla distanza dal centroide di ciascun gruppo. I punti dati più vicini a un determinato centroide saranno raggruppati nella stessa categoria. Un valore K più grande sarà indicativo di raggruppamenti più piccoli con maggiore granularità, mentre un valore K più piccolo avrà raggruppamenti più grandi e meno granularità. Il K-means clustering è comunemente utilizzato nella segmentazione del mercato, nel clustering di documenti, nella segmentazione di immagini e nella compressione di immagini.

I cluster sovrapposti differiscono dal clustering esclusivo in quanto consentono ai punti dati di appartenere a più cluster con gradi di appartenenza separati. Il clustering "soft" o fuzzy k-means è un esempio di clustering sovrapposto.

Clustering gerarchico

Il clustering gerarchico, noto anche come analisi dei cluster gerarchici (HCA), è un algoritmo di clustering non supervisionato che può essere classificato in due modi: agglomerativo o divisivo.

Il cluster agglomerativo è considerato un "approccio bottoms-up". I suoi dati sono inizialmente isolati come raggruppamenti separati, quindi vengono uniti iterativamente sulla base della somiglianza fino a ottenere un cluster. Quattro diversi metodi sono comunemente usati per misurare la somiglianza:

  1. Collegamento di Ward: questo metodo afferma che la distanza tra due cluster è definita dall'aumento della somma dei quadrati dopo l'unione dei cluster.

  2. Collegamento medio: questo metodo è definito dalla distanza media tra due punti in ciascun cluster.

  3. Collegamento completo (o massimo): questo metodo è definito dalla distanza massima tra due punti in ogni cluster.

  4. Collegamento singolo (o minimo): questo metodo è definito dalla distanza minima tra due punti in ogni cluster.

La distanza euclidea è la metrica più comunemente utilizzata per calcolare queste distanze; tuttavia, nella letteratura sul clustering vengono citate anche altre metriche, come la distanza di Manhattan.

Il clustering divisivo può essere definito come l'opposto del clustering agglomerativo, poiché utilizza un approccio "top-down". In questo caso, un singolo cluster di dati viene diviso in base alle differenze tra i punti dati. Il clustering divisivo non è comunemente usato, ma vale comunque la pena segnalarlo nel contesto del clustering gerarchico. Questi processi di clustering vengono generalmente visualizzati utilizzando un dendrogramma, ovvero un diagramma ad albero che documenta la fusione o la divisione dei punti dati a ogni iterazione.

Clustering probabilistico

Un modello probabilistico è una tecnica non supervisionata che aiuta a risolvere problemi di stima della densità o di clustering "soft". Nel clustering probabilistico, i punti dati vengono raggruppati in base alla probabilità che appartengano a una particolare distribuzione. Il Gaussian Mixture Model (GMM) è uno dei metodi di clustering probabilistico più comunemente usati.

  • I modelli Gaussian Mixture sono classificati come modelli misti, il che significa che sono costituiti da un numero imprecisato di funzioni di distribuzione delle probabilità. I GMM vengono utilizzati principalmente per determinare a quale distribuzione di probabilità gaussiana, o normale, appartiene un determinato punto dati. Se la media o la varianza sono note, possiamo determinare a quale distribuzione appartiene un determinato punto dati. Tuttavia, nei GMM, queste variabili non sono note, quindi supponiamo che esista una variabile latente o nascosta per raggruppare i punti dati in modo corretto. Sebbene non sia necessario utilizzare l'algoritmo Expectation-Maximization (EM), questo è comunemente usato per stimare le probabilità di assegnazione di un determinato punto dati a un particolare cluster di dati.

Regole di associazione

Una regola di associazione è un metodo basato su regole per trovare relazioni tra variabili in un determinato set di dati. Questi metodi sono spesso utilizzati per la market basket analysis, utilizzata dalle aziende per comprendere meglio le relazioni tra prodotti diversi. Comprendere le abitudini di consumo dei clienti consente alle aziende di sviluppare strategie di cross-selling e motori di raccomandazione migliori. Esempi di ciò possono essere visti nelle sezioni "Spesso comprati insieme" di Amazon o "Discover Weekly" di Spotify. Sebbene esistano alcuni algoritmi diversi utilizzati per generare regole di associazione, come Apriori, Eclat e FP-Growth, l'algoritmo Apriori è il più utilizzato.

Algoritmi Apriori

Gli algoritmi Apriori sono stati resi popolari attraverso le market basket analysis, che hanno portato a diversi motori di raccomandazione per piattaforme musicali e rivenditori online. Vengono utilizzati all'interno dei set di dati transazionali per identificare gli insiemi di elementi frequenti, o collezioni di elementi, per identificare la probabilità di consumare un prodotto in base al consumo di un altro prodotto. Ad esempio, se ascolto la radio dei Black Sabbath su Spotify, iniziando con la loro canzone "Orchid", una delle altre canzoni su questo canale sarà probabilmente una canzone dei Led Zeppelin, come "Over the Hills and Far Away". Questo si basa sulle mie abitudini di ascolto precedenti e su quelle degli altri. Gli algoritmi Apriori utilizzano un albero hash per contare gli itemset, navigando nel set di dati in modalità breadth-first.

Riduzione della dimensionalità

Sebbene una quantità superiore di dati produca generalmente risultati più accurati, questo può avere un impatto anche sulle prestazioni degli algoritmi di machine learning (ad es. l'overfitting) e può anche rendere difficile la visualizzazione dei set di dati. La riduzione della dimensionalità è una tecnica utilizzata quando il numero di caratteristiche, o dimensioni, in un determinato set di dati è troppo elevato. Riduce il numero di input di dati a una dimensione gestibile, preservando al contempo il più possibile l'integrità del set di dati. È comunemente usato nella fase di pre-elaborazione dei dati e ci sono diversi metodi di riduzione della dimensionalità che possono essere utilizzati, tra cui:

Analisi dei componenti principali

L'analisi dei componenti principali (PCA) è un tipo di algoritmo di riduzione della dimensionalità utilizzato per ridurre le ridondanze e comprimere i set di dati tramite l'estrazione di caratteristiche. Questo metodo utilizza una trasformazione lineare per creare una nuova rappresentazione dei dati, ottenendo un set di "componenti principali". Il primo componente principale è la direzione che massimizza la varianza del set di dati. Sebbene il secondo componente principale trovi anche la varianza massima nei dati, è completamente non correlato al primo componente principale e produce una direzione perpendicolare o ortogonale al primo componente. Questo processo si ripete in base al numero di dimensioni, dove un componente principale successivo è la direzione ortogonale ai componenti precedenti con la maggiore varianza.

Decomposizione del valore singolare

La singular value decomposition (SVD) è un altro approccio di riduzione della dimensionalità che fattorizza una matrice, A, in tre matrici di basso rango. La SVD è indicata dalla formula A = USVT, dove U e V sono matrici ortogonali. S è una matrice diagonale e i valori S sono considerati valori singolari della matrice A. Analogamente alla PCA, è comunemente usata per ridurre il rumore e comprimere i dati, come i file di immagine.

Autoencoder

Gli autoencoder utilizzano le reti neurali per comprimere i dati e poi ricreare una nuova rappresentazione dell'input dei dati originali. Nell'immagine sottostante si può vedere che il livello nascosto agisce specificamente come un collo di bottiglia per comprimere l'input prima della ricostruzione nell'output. La fase che va dall'input al livello nascosto viene definita "codifica", mentre la fase che va dal livello nascosto all'output è nota come "decodifica".

Applicazioni dell'apprendimento non supervisionato

Le tecniche di machine learning sono diventate un metodo comune per migliorare l'esperienza utente di un prodotto e testare i sistemi per il controllo della qualità. L'apprendimento non supervisionato offre un percorso esplorativo per visualizzare i dati, consentendo alle aziende di identificare modelli in grandi volumi di dati più rapidamente rispetto all'osservazione manuale. Alcune delle applicazioni più comuni dell'apprendimento non supervisionato nel mondo reale sono:

  • Sezioni delle notizie: Google News utilizza l'apprendimento non supervisionato per classificare gli articoli sulla stessa storia di varie testate online. Ad esempio, i risultati di un'elezione presidenziale potrebbero essere classificati sotto l'etichetta delle notizie "USA".

  • Computer vision: gli algoritmi di apprendimento non supervisionato vengono utilizzati per attività di percezione visiva, come il riconoscimento degli oggetti.

  • Imaging medico: il machine learning non supervisionato fornisce le caratteristiche essenziali ai dispositivi di imaging medico, come il rilevamento, la classificazione e la segmentazione delle immagini, utilizzati in radiologia e patologia per diagnosticare i pazienti in modo rapido e preciso.

  • Rilevamento delle anomalie: i modelli di apprendimento non supervisionato possono analizzare grandi quantità di dati e scoprire punti dati atipici all'interno di un set di dati. Queste anomalie possono aiutare a rilevare apparecchiature difettose, errori umani o violazioni della sicurezza.

  • Profili dei clienti: la definizione dei profili dei clienti semplifica la comprensione dei tratti comuni e delle abitudini di acquisto dei clienti aziendali. L'apprendimento non supervisionato consente alle aziende di creare profili dei clienti migliori per allineare i messaggi sui prodotti in modo più adeguato.

  • Motori di raccomandazione: utilizzando i precedenti dati sul comportamento d'acquisto, l'apprendimento non supervisionato può aiutare a scoprire tendenze nei dati che possono essere utilizzate per sviluppare strategie di cross-selling più efficaci. Questo consente di fornire ai clienti consigli aggiuntivi e pertinenti durante il processo di check out dei rivenditori online.
Mixture of Experts | 25 aprile, episodio 52

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Apprendimento non supervisionato, supervisionato e semi-supervisionato a confronto

L'apprendimento non supervisionato e l'apprendimento supervisionato vengono spesso discussi insieme. A differenza degli algoritmi di apprendimento non supervisionato, gli algoritmi di apprendimento supervisionato utilizzano dati etichettati. Da quei dati, prevede i risultati futuri o assegna i dati a categorie specifiche in base al problema di regressione o classificazione che sta cercando di risolvere.

Sebbene gli algoritmi di apprendimento supervisionato siano solitamente più accurati dei modelli di apprendimento non supervisionato, richiedono un intervento umano iniziale per etichettare i dati in modo adeguato. Tuttavia, questi set di dati etichettati consentono agli algoritmi di apprendimento supervisionato di evitare la complessità computazionale, in quanto non necessitano di un ampio set di addestramento per produrre i risultati previsti. Le tecniche di regressione e classificazione comuni sono la regressione lineare e logistica, i naïve bayes, l'algoritmo KNN e la foresta casuale.

L'apprendimento semi-supervisionato avviene quando solo una parte dei dati di input è stata etichettata. L'apprendimento non supervisionato e semi-supervisionato può essere un'alternativa più interessante, poiché può essere dispendioso in termini di tempo e di costi affidarsi all'esperienza di dominio per etichettare i dati in modo adeguato per l'apprendimento supervisionato.

Per un approfondimento delle differenze tra questi approcci, consulta "Apprendimento supervisionato e non supervisionato: qual è la differenza?"

Sfide dell'apprendimento non supervisionato

Sebbene l'apprendimento non supervisionato offra molti benefici, possono sorgere alcune problematiche quando consente l'esecuzione dei modelli di machine learning senza alcun intervento umano. Tra queste:

  • Complessità computazionale dovuta a un elevato volume di dati di addestramento

  • Tempi di addestramento più lunghi

  • Rischio più elevato di risultati inaccurati

  • Intervento umano per convalidare le variabili di output

  • Mancanza di trasparenza riguardo alla base su cui sono stati raggruppati i dati
Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live