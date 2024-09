Gli algoritmi di machine learning si dividono in cinque grandi categorie: apprendimento supervisionato, apprendimento non supervisionato, apprendimento semi-supervisionato, supervisione autonoma e apprendimento per rinforzo.

1. Machine learning supervisionato

Il machine learning supervisionato è un tipo di machine learning in cui il modello viene addestrato su un set di dati etichettato (ad esempio, è nota la variabile target o di risultato). Per esempio, se i data scientist stessero costruendo un modello per la previsione dei tornado, le variabili di input potrebbero includere la data, il luogo, la temperatura, i modelli di flusso del vento e altro ancora, e l'output sarebbe l'attività effettiva dei tornado registrata in quei giorni.

L'apprendimento supervisionato viene generalmente utilizzato per la valutazione del rischio, il riconoscimento delle immagini, gli analytics predittivi e il rilevamento delle frodi e comprende diversi tipi di algoritmi.

Algoritmi di regressione : prevedono i valori di output identificando le relazioni lineari tra valori reali o continui (ad esempio, temperatura, salario). Gli algoritmi di regressione includono regressione lineare, foresta casuale e gradient boosting, nonché altri sottotipi.

: prevedono i valori di output identificando le relazioni lineari tra valori reali o continui (ad esempio, temperatura, salario). Gli algoritmi di regressione includono regressione lineare, foresta casuale e gradient boosting, nonché altri sottotipi. Algoritmi di classificazione : prevedono variabili di output categoriche (ad esempio, "spazzatura" o "non spazzatura") etichettando i dati di input. Gli algoritmi di classificazione includono, tra gli altri, la regressione logistica, il k-nearest neighbors e le macchine a vettori di supporto (SVM).

: prevedono variabili di output categoriche (ad esempio, "spazzatura" o "non spazzatura") etichettando i dati di input. Gli algoritmi di classificazione includono, tra gli altri, la regressione logistica, il k-nearest neighbors e le macchine a vettori di supporto (SVM). Classificatori Naïve Bayes : consentono attività di classificazione per set di dati di grandi dimensioni. Fanno anche parte di una famiglia di algoritmi di apprendimento generativo che modellano la distribuzione dell'input di una determinata classe o categoria. Gli algoritmi Naïve Bayes includono alberi decisionali, in grado di soddisfare sia gli algoritmi di regressione che di classificazione.

: consentono attività di classificazione per set di dati di grandi dimensioni. Fanno anche parte di una famiglia di algoritmi di apprendimento generativo che modellano la distribuzione dell'input di una determinata classe o categoria. Gli algoritmi Naïve Bayes includono alberi decisionali, in grado di soddisfare sia gli algoritmi di regressione che di classificazione. Reti neurali : simulano il modo in cui funziona il cervello umano, con un numero enorme di nodi di elaborazione collegati che possono facilitare processi come la traduzione del linguaggio naturale, il riconoscimento delle immagini, il riconoscimento vocale e la creazione di immagini.

: simulano il modo in cui funziona il cervello umano, con un numero enorme di nodi di elaborazione collegati che possono facilitare processi come la traduzione del linguaggio naturale, il riconoscimento delle immagini, il riconoscimento vocale e la creazione di immagini. Algoritmi di foresta casuale: consentono di stimare un valore o una categoria combinando i risultati di una serie di alberi decisionali.

2. Machine learning non supervisionato

Gli algoritmi di apprendimento non supervisionato, come Apriori, Gaussian Mixture Models (GMMs) e analisi delle componenti principali (PCA), consentono di trarre inferenze da set di dati non etichettati, facilitando l'analisi esplorativa dei dati e consentendo il riconoscimento dei modelli e la modellazione predittiva.

Il metodo di apprendimento non supervisionato più comune è l'analisi dei cluster, che utilizza algoritmi di clustering per categorizzare i punti dati in base alla somiglianza di valore (come la segmentazione del cliente o il rilevamento di anomalie). Gli algoritmi di associazione consentono ai data scientist di identificare le associazioni tra gli oggetti dati all'interno di grandi database, facilitando la visualizzazione dei dati e la riduzione della dimensionalità.

K-means clustering : assegna i punti dati in gruppi K, in cui i punti dati più vicini a un determinato centroide sono raggruppati nella stessa categoria e K rappresenta i cluster in base alla loro dimensione e al livello di granularità. Il k-means clustering è comunemente utilizzato per la segmentazione del mercato, il clustering di documenti, la segmentazione di immagini e la compressione di immagini.

: assegna i punti dati in gruppi K, in cui i punti dati più vicini a un determinato centroide sono raggruppati nella stessa categoria e K rappresenta i cluster in base alla loro dimensione e al livello di granularità. Il k-means clustering è comunemente utilizzato per la segmentazione del mercato, il clustering di documenti, la segmentazione di immagini e la compressione di immagini. Clustering gerarchico : descrive un insieme di tecniche di clustering, tra cui il clustering agglomerativo, in cui i punti dati vengono inizialmente isolati in gruppi e poi uniti iterativamente in base alla somiglianza fino a quando non rimane un cluster, e il clustering divisivo, in cui un singolo cluster di dati viene diviso in base alle differenze tra i punti dati.

: descrive un insieme di tecniche di clustering, tra cui il clustering agglomerativo, in cui i punti dati vengono inizialmente isolati in gruppi e poi uniti iterativamente in base alla somiglianza fino a quando non rimane un cluster, e il clustering divisivo, in cui un singolo cluster di dati viene diviso in base alle differenze tra i punti dati. Clustering probabilistico: aiuta a risolvere i problemi di stima della densità o di clustering "soft" raggruppando i punti dati in base alla probabilità che appartengano a una particolare distribuzione.

I modelli di ML non supervisionati sono spesso alla base dei sistemi di raccomandazione del tipo "i clienti che hanno acquistato questo hanno acquistato anche...".

3. Machine learning auto-supervisionato

L'apprendimento auto-supervisionato (SSL) consente ai modelli di addestrarsi su dati non etichettati, invece di richiedere enormi set di dati annotati e/o etichettati. Gli algoritmi SSL, chiamati anche algoritmi predittivi o di apprendimento pretestuale, apprendono una parte dell'input da un'altra parte, generando automaticamente etichette e trasformando i problemi non supervisionati in quelli supervisionati. Questi algoritmi sono particolarmente utili per lavori come la computer vision e l'NLP, in cui il volume di dati di addestramento etichettati necessari per addestrare i modelli può essere eccezionalmente elevato (a volte in modo proibitivo).

4. Apprendimento per rinforzo

L'apprendimento per rinforzo, chiamato anche apprendimento per rinforzo da feedback umano (RLHF), è un tipo di programmazione dinamica che addestra gli algoritmi utilizzando un sistema di ricompensa e punizione. Per implementare l'apprendimento per rinforzo, un agente intraprende azioni in un ambiente specifico per raggiungere un obiettivo predeterminato. L'agente viene ricompensato o penalizzato per le sue azioni in base a una metrica stabilita (in genere punti), che lo incoraggia a continuare le buone pratiche e a scartare quelle cattive. Con la ripetizione, l'agente apprende le migliori strategie.

Gli algoritmi di apprendimento per rinforzo sono comuni nello sviluppo di videogiochi e sono spesso utilizzati per insegnare ai robot come replicare i compiti umani.

5. Apprendimento semi-supervisionato

Il quinto tipo di tecnica di machine learning offre una combinazione tra apprendimento supervisionato e non supervisionato.

Gli algoritmi di apprendimento semi-supervisionato vengono addestrati su un piccolo set di dati etichettato e su un grande set di dati non etichettato, dove i dati etichettati guidano il processo di apprendimento la grande quantità di dati non etichettati. Un modello di apprendimento semi-supervisionato potrebbe utilizzare l'apprendimento non supervisionato per identificare i cluster di dati e quindi utilizzare l'apprendimento supervisionato per etichettare i cluster.

Le reti generative avversarie (GAN), uno strumento dideep learning che genera dati non etichettati formando due reti neurali, sono un esempio di machine learning semi-supervisionato.

Indipendentemente dal tipo, i modelli di ML possono ricavare insight dai dati aziendali, ma la loro vulnerabilità ai pregiudizi umani/dati rende le pratiche di AI responsabile un imperativo organizzativo.