L'apprendimento non supervisionato, noto anche come machine learning non supervisionato , utilizza algoritmi di machine learning (ML) per analizzare e raggruppare set di dati non etichettati. Questi algoritmi scoprono modelli nascosti o raggruppamenti di dati senza la necessità dell'intervento umano.
La capacità dell'apprendimento non supervisionato di scoprire somiglianze e differenze nelle informazioni lo rende la soluzione ideale per l'analisi dei dati esplorativa, le strategie di cross-selling, la segmentazione dei clienti e il riconoscimento delle immagini.
I modelli di apprendimento non supervisionato vengono utilizzati per tre compiti principali: cluster, associazione e riduzione della dimensionalità. Di seguito definiremo ogni metodo di apprendimento e metteremo in evidenza gli algoritmi e gli approcci comuni per eseguirli in modo efficace.
Il clustering è una tecnica di data mining che raggruppa dati senza etichetta in base alle loro somiglianze o differenze. Gli algoritmi di clustering vengono utilizzati per elaborare oggetti di dati grezzi e non classificati in gruppi rappresentati da strutture o schemi nelle informazioni. Gli algoritmi di clustering possono essere suddivisi nei seguenti tipi: esclusivi, sovrapposti, gerarchici e probabilistici.
Il clustering esclusivo è una forma di raggruppamento che stabilisce che un punto dati può esistere solo in un cluster. Questo può anche essere definito come clustering "hard". Il K-means clustering è un esempio comune di metodo di clustering esclusivo in cui i punti dati vengono assegnati a gruppi K, dove K rappresenta il numero di cluster in base alla distanza dal centroide di ciascun gruppo. I punti dati più vicini a un determinato centroide saranno raggruppati nella stessa categoria. Un valore K più grande sarà indicativo di raggruppamenti più piccoli con maggiore granularità, mentre un valore K più piccolo avrà raggruppamenti più grandi e meno granularità. Il K-means clustering è comunemente utilizzato nella segmentazione del mercato, nel clustering di documenti, nella segmentazione di immagini e nella compressione di immagini.
I cluster sovrapposti differiscono dal clustering esclusivo in quanto consentono ai punti dati di appartenere a più cluster con gradi di appartenenza separati. Il clustering "soft" o fuzzy k-means è un esempio di clustering sovrapposto.
Il clustering gerarchico, noto anche come analisi dei cluster gerarchici (HCA), è un algoritmo di clustering non supervisionato che può essere classificato in due modi: agglomerativo o divisivo.
Il cluster agglomerativo è considerato un "approccio bottoms-up". I suoi dati sono inizialmente isolati come raggruppamenti separati, quindi vengono uniti iterativamente sulla base della somiglianza fino a ottenere un cluster. Quattro diversi metodi sono comunemente usati per misurare la somiglianza:
La distanza euclidea è la metrica più comunemente utilizzata per calcolare queste distanze; tuttavia, nella letteratura sul clustering vengono citate anche altre metriche, come la distanza di Manhattan.
Il clustering divisivo può essere definito come l'opposto del clustering agglomerativo, poiché utilizza un approccio "top-down". In questo caso, un singolo cluster di dati viene diviso in base alle differenze tra i punti dati. Il clustering divisivo non è comunemente usato, ma vale comunque la pena segnalarlo nel contesto del clustering gerarchico. Questi processi di clustering vengono generalmente visualizzati utilizzando un dendrogramma, ovvero un diagramma ad albero che documenta la fusione o la divisione dei punti dati a ogni iterazione.
Un modello probabilistico è una tecnica non supervisionata che aiuta a risolvere problemi di stima della densità o di clustering "soft". Nel clustering probabilistico, i punti dati vengono raggruppati in base alla probabilità che appartengano a una particolare distribuzione. Il Gaussian Mixture Model (GMM) è uno dei metodi di clustering probabilistico più comunemente usati.
Una regola di associazione è un metodo basato su regole per trovare relazioni tra variabili in un determinato set di dati. Questi metodi sono spesso utilizzati per la market basket analysis, utilizzata dalle aziende per comprendere meglio le relazioni tra prodotti diversi. Comprendere le abitudini di consumo dei clienti consente alle aziende di sviluppare strategie di cross-selling e motori di raccomandazione migliori. Esempi di ciò possono essere visti nelle sezioni "Spesso comprati insieme" di Amazon o "Discover Weekly" di Spotify. Sebbene esistano alcuni algoritmi diversi utilizzati per generare regole di associazione, come Apriori, Eclat e FP-Growth, l'algoritmo Apriori è il più utilizzato.
Gli algoritmi Apriori sono stati resi popolari attraverso le market basket analysis, che hanno portato a diversi motori di raccomandazione per piattaforme musicali e rivenditori online. Vengono utilizzati all'interno dei set di dati transazionali per identificare gli insiemi di elementi frequenti, o collezioni di elementi, per identificare la probabilità di consumare un prodotto in base al consumo di un altro prodotto. Ad esempio, se ascolto la radio dei Black Sabbath su Spotify, iniziando con la loro canzone "Orchid", una delle altre canzoni su questo canale sarà probabilmente una canzone dei Led Zeppelin, come "Over the Hills and Far Away". Questo si basa sulle mie abitudini di ascolto precedenti e su quelle degli altri. Gli algoritmi Apriori utilizzano un albero hash per contare gli itemset, navigando nel set di dati in modalità breadth-first.
Sebbene una quantità superiore di dati produca generalmente risultati più accurati, questo può avere un impatto anche sulle prestazioni degli algoritmi di machine learning (ad es. l'overfitting) e può anche rendere difficile la visualizzazione dei set di dati. La riduzione della dimensionalità è una tecnica utilizzata quando il numero di caratteristiche, o dimensioni, in un determinato set di dati è troppo elevato. Riduce il numero di input di dati a una dimensione gestibile, preservando al contempo il più possibile l'integrità del set di dati. È comunemente usato nella fase di pre-elaborazione dei dati e ci sono diversi metodi di riduzione della dimensionalità che possono essere utilizzati, tra cui:
L'analisi dei componenti principali (PCA) è un tipo di algoritmo di riduzione della dimensionalità utilizzato per ridurre le ridondanze e comprimere i set di dati tramite l'estrazione di caratteristiche. Questo metodo utilizza una trasformazione lineare per creare una nuova rappresentazione dei dati, ottenendo un set di "componenti principali". Il primo componente principale è la direzione che massimizza la varianza del set di dati. Sebbene il secondo componente principale trovi anche la varianza massima nei dati, è completamente non correlato al primo componente principale e produce una direzione perpendicolare o ortogonale al primo componente. Questo processo si ripete in base al numero di dimensioni, dove un componente principale successivo è la direzione ortogonale ai componenti precedenti con la maggiore varianza.
La singular value decomposition (SVD) è un altro approccio di riduzione della dimensionalità che fattorizza una matrice, A, in tre matrici di basso rango. La SVD è indicata dalla formula A = USVT, dove U e V sono matrici ortogonali. S è una matrice diagonale e i valori S sono considerati valori singolari della matrice A. Analogamente alla PCA, è comunemente usata per ridurre il rumore e comprimere i dati, come i file di immagine.
Gli autoencoder utilizzano le reti neurali per comprimere i dati e poi ricreare una nuova rappresentazione dell'input dei dati originali. Nell'immagine sottostante si può vedere che il livello nascosto agisce specificamente come un collo di bottiglia per comprimere l'input prima della ricostruzione nell'output. La fase che va dall'input al livello nascosto viene definita "codifica", mentre la fase che va dal livello nascosto all'output è nota come "decodifica".
Le tecniche di machine learning sono diventate un metodo comune per migliorare l'esperienza utente di un prodotto e testare i sistemi per il controllo della qualità. L'apprendimento non supervisionato offre un percorso esplorativo per visualizzare i dati, consentendo alle aziende di identificare modelli in grandi volumi di dati più rapidamente rispetto all'osservazione manuale. Alcune delle applicazioni più comuni dell'apprendimento non supervisionato nel mondo reale sono:
L'apprendimento non supervisionato e l'apprendimento supervisionato vengono spesso discussi insieme. A differenza degli algoritmi di apprendimento non supervisionato, gli algoritmi di apprendimento supervisionato utilizzano dati etichettati. Da quei dati, prevede i risultati futuri o assegna i dati a categorie specifiche in base al problema di regressione o classificazione che sta cercando di risolvere.
Sebbene gli algoritmi di apprendimento supervisionato siano solitamente più accurati dei modelli di apprendimento non supervisionato, richiedono un intervento umano iniziale per etichettare i dati in modo adeguato. Tuttavia, questi set di dati etichettati consentono agli algoritmi di apprendimento supervisionato di evitare la complessità computazionale, in quanto non necessitano di un ampio set di addestramento per produrre i risultati previsti. Le tecniche di regressione e classificazione comuni sono la regressione lineare e logistica, i naïve bayes, l'algoritmo KNN e la foresta casuale.
L'apprendimento semi-supervisionato avviene quando solo una parte dei dati di input è stata etichettata. L'apprendimento non supervisionato e semi-supervisionato può essere un'alternativa più interessante, poiché può essere dispendioso in termini di tempo e di costi affidarsi all'esperienza di dominio per etichettare i dati in modo adeguato per l'apprendimento supervisionato.
Per un approfondimento delle differenze tra questi approcci, consulta "Apprendimento supervisionato e non supervisionato: qual è la differenza?"
Sebbene l'apprendimento non supervisionato offra molti benefici, possono sorgere alcune problematiche quando consente l'esecuzione dei modelli di machine learning senza alcun intervento umano. Tra queste: