L'apprendimento supervisionato è una tecnica di machine learning che utilizza set di dati di input e output etichettati dall'uomo per addestrare modelli di intelligenza artificiale Il modello addestrato apprende le relazioni sottostanti tra input e output; ciò gli consente di prevedere output corretti sulla base di nuovi dati di input non etichettati dal mondo reale.
I dati etichettati sono costituiti da punti dati di esempio, accompagnati dalle risposte o dagli output corretti. Via via che i dati di input vengono immessi nell'algoritmo di machine learning, questo regola i propri pesi fino a quando il modello non viene adattato in modo adeguato. I dati di addestramento etichettati insegnano esplicitamente al modello a identificare le relazioni tra le caratteristiche e le etichette dei dati.
Il machine learning supervisionato aiuta le organizzazioni a risolvere una serie di problemi reali su larga scala, come la classificazione dello spam o la previsione dei prezzi delle azioni. Può essere utilizzato per costruire modelli di machine learning altamente accurati.
L'apprendimento supervisionato utilizza un set di dati di addestramento etichettati per comprendere le relazioni tra dati di input e output. I data scientist creano manualmente set di dati di addestramento contenenti dati di input insieme alle etichette corrispondenti. L'apprendimento supervisionato addestra il modello ad applicare gli output corretti ai nuovi dati di input in casi d'uso reali.
Durante l'addestramento, l'algoritmo del modello elabora grandi set di dati per esplorare le potenziali correlazioni tra input e output. Le prestazioni del modello vengono quindi valutate con i dati di test per scoprire se l'addestramento è stato eseguito correttamente. La convalida incrociata è il processo di test di un modello utilizzando una porzione diversa del set di dati.
Gli algoritmi della famiglia di discesa del gradiente, inclusa la discesa stocastica del gradiente (SGD), sono gli algoritmi di ottimizzazione, o algoritmi di apprendimento, più comunemente usati durante l'addestramento delle reti neurali e di altri modelli di machine learning. L'algoritmo di ottimizzazione del modello valuta l'accuratezza attraverso la funzione di perdita, ovvero un'equazione che misura la discrepanza tra le previsioni del modello e i valori effettivi.
La pendenza della funzione di perdita, o gradiente, è la metrica principale delle prestazioni del modello. L'algoritmo di ottimizzazione discende il gradiente per minimizzare il suo valore. Durante l'addestramento, l'algoritmo di ottimizzazione aggiorna i parametri del modello (le sue regole operative o "impostazioni") per ottimizzare il modello.
Un tipico processo di apprendimento supervisionato potrebbe essere simile a questo:
Quale esempio di apprendimento supervisionato, possiamo considerare un modello di classificazione delle immagini creato per riconoscere le immagini dei veicoli e per determinare il tipo di veicolo. Questo modello può alimentare i test CAPTCHA utilizzati da molti siti web per rilevare i bot di spam.
Per addestrare questo modello, i data scientist preparano un set di dati di addestramento etichettato contenente numerosi esempi di veicoli insieme al tipo di veicolo corrispondente: auto, moto, camion, bicicletta ecc. L'algoritmo del modello tenta di identificare i modelli nei dati di addestramento che fanno sì che un input, ovvero le immagini del veicolo, riceva un output designato, ovvero il tipo di veicolo.
Le ipotesi del modello vengono misurate rispetto ai valori dei dati effettivi in un set di test per determinare se ha effettuato previsioni accurate. In caso contrario, il ciclo di addestramento continua fino a quando le prestazioni del modello non hanno raggiunto un livello di precisione soddisfacente. Il principio di generalizzazione si riferisce alla capacità di un modello di fare previsioni adeguate su nuovi dati dalla stessa distribuzione utilizzandoli come dati di addestramento.
Le attività di apprendimento supervisionato possono essere suddivise sostanzialmente in problemi di classificazione e regressione:
La classificazione nel machine learning utilizza un algoritmo per ordinare i dati in categorie. Riconosce entità specifiche all'interno del set di dati e tenta di stabilire come tali entità dovrebbero essere etichettate o definite. Gli algoritmi di classificazione comuni sono classificatori lineari, macchine a vettori di supporto (SVM), decision tree, k-nearest neighbor e foreste casuali.
Le reti neurali eccellono nella gestione di problemi di classificazione complessi. Una rete neurale è un'architettura di deep learning che elabora i dati di addestramento con livelli di nodi che imitano il cervello umano. Ciascun nodo è costituito da input, pesi, un bias (soglia) e un output. Se un valore di output supera una soglia preimpostata, il nodo si "innesca" o attiva, passando i dati al livello successivo della rete.
La regressione è utilizzata per comprendere la relazione tra variabili dipendenti e indipendenti. Nei problemi di regressione, l'output è un valore continuo e i modelli tentano di prevedere l'output target. Le attività di regressione includono proiezioni sui ricavi delle vendite o sulla pianificazione finanziaria. La regressione lineare, la regressione logistica e la regressione polinomiale sono tre esempi di algoritmi di regressione.
Poiché i grandi set di dati contengono spesso molte caratteristiche, i data scientist possono semplificare questa complessità attraverso la riduzione della dimensionalità. Questa tecnica di data science riduce il numero di caratteristiche a quelle più cruciali per la previsione delle etichette dei dati, il che preserva la precisione e aumenta l'efficienza.
Gli algoritmi di ottimizzazione come la discesa del gradiente addestrano un'ampia gamma di algoritmi di machine learning che eccellono nelle attività di apprendimento supervisionato.
Naive Bayes: Naive Bayes è un algoritmo di classificazione che adotta il principio dell'indipendenza condizionale di classe dal teorema di Bayes. Ciò significa che la presenza di una caratteristica non influisce sulla presenza di un'altra nella probabilità di un determinato risultato e che ogni predittore ha un effetto uguale su quel risultato.
I classificatori Naive Bayes includono Multinomial, Bernoulli e Gaussian Naive Bayes. Questa tecnica viene spesso utilizzata nella classificazione dei testi, nell'identificazione dello spam e nei sistemi di raccomandazione.
Regressione lineare: la regressione lineare è utilizzata per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. In genere è utilizzata per fare previsioni sui risultati futuri.
La regressione lineare esprime la relazione tra le variabili come una linea retta. Quando si hanno una sola variabile indipendente e una sola variabile dipendente, si parla di regressione lineare semplice. Con l'aumentare del numero di variabili indipendenti, la tecnica viene definita regressione lineare multipla.
Regressione non lineare: a volte, un output non può essere riprodotto da input lineari. In questi casi, gli output devono essere modellati con una funzione non lineare. La regressione non lineare esprime una relazione tra variabili attraverso una linea non lineare o curva. I modelli non lineari possono gestire relazioni complesse con molti parametri.
Regressione logistica: la regressione logistica gestisce le variabili dipendenti categoriche, ovvero quando hanno output binari, come vero o falso o positivo o negativo. Mentre i modelli di regressione lineare e logistica cercano di comprendere le relazioni tra gli input di dati, la regressione logistica viene utilizzata principalmente per risolvere problemi di classificazione binaria, come l'identificazione dello spam.
Regressione polinomiale: simile ad altri modelli di regressione, la regressione polinomiale modella una relazione tra variabili su un grafico. Le funzioni utilizzate nella regressione polinomiale esprimono questa relazione attraverso un grado esponenziale. La regressione polinomiale è un sottoinsieme della regressione non lineare.
Macchine a vettori di supporto (SVM): una macchina a vettori di supporto viene utilizzata sia per la classificazione che per la regressione dei dati. Solitamente gestisce tuttavia i problemi di classificazione. In questo caso, la SVM separa le classi di punti dati con un limite di decisione o un iperpiano. L'obiettivo dell'algoritmo SVM è quello di tracciare l'iperpiano che massimizza la distanza tra i gruppi di punti dati.
K-nearest neighbor: il K-nearest neighbor (KNN) è un algoritmo non parametrico che classifica i punti dati in base alla loro vicinanza e all'associazione con altri dati disponibili. Questo algoritmo presuppone che punti dati simili possano essere trovati uno vicino all'altro quando tracciati matematicamente.
La sua facilità d'uso e il basso tempo di calcolo lo rendono efficiente se utilizzato per i motori di raccomandazione e il riconoscimento delle immagini. Tuttavia, via via che il set di dati di test cresce, il tempo di elaborazione si allunga, rendendolo meno interessante per le attività di classificazione.
Foresta casuale: la foresta casuale è un algoritmo di machine learning supervisionato flessibile, utilizzato per scopi di classificazione e regressione. La "foresta" fa riferimento a una raccolta di decision tree non correlati che vengono uniti per ridurre la varianza e aumentare la precisione.
L'apprendimento supervisionato non è l'unico metodo di apprendimento per l'addestramento di modelli di machine learning. Altri tipi di machine learning includono:
Apprendimento non supervisionato
Apprendimento semi-supervisionato
Apprendimento auto-supervisionato
Apprendimento per rinforzo
La differenza tra l'apprendimento supervisionato e l'apprendimento non supervisionato è che il machine learning non supervisionato utilizza dati non etichettati. Si lascia che il modello scopra autonomamente schemi e relazioni nei dati. Molti modelli di AI generativa vengono inizialmente addestrati con l'apprendimento non supervisionato e successivamente con l'apprendimento supervisionato per aumentarne le competenze di dominio.
L'apprendimento non supervisionato può aiutare a risolvere problemi di clustering o associazione in cui le proprietà comuni all'interno di un set di dati sono incerte. Gli algoritmi di clustering più comuni sono i modelli gerarchici, K-means e Gaussian Mixture.
L'apprendimento semi-supervisionato etichetta una parte dei dati di input. Poiché può richiedere molto tempo e denaro affidarsi all'esperienza del settore per etichettare i dati in modo corretto per l'apprendimento supervisionato, l'apprendimento semi-supervisionato può essere un'alternativa interessante.
L'apprendimento auto-supervisionato (SSL) emula l'apprendimento supervisionato con dati non etichettati. Anziché utilizzare le etichette create manualmente dei set di dati di apprendimento supervisionato, le attività SSL sono configurate in modo che il modello possa generare etichette implicite da dati non strutturati. Quindi, la funzione di perdita del modello utilizza tali etichette al posto delle etichette effettive per valutare le prestazioni del modello.
L'apprendimento auto-supervisionato vede un uso diffuso nelle attività di computer vision e di elaborazione del linguaggio naturale (NLP) che richiedono grandi set di dati che sono estremamente costosi e richiedono molto tempo per l'etichettatura.
L'apprendimento per rinforzo addestra agenti autonomi, come robot e auto a guida autonoma, a prendere decisioni attraverso interazioni ambientali. L'apprendimento per rinforzo non utilizza dati etichettati e si differenzia anche dall'apprendimento non supervisionato, in quanto insegna per tentativi ed errori e per ricompensa, non identificando i modelli sottostanti all'interno dei set di dati.
I modelli di apprendimento supervisionato possono creare e fare avanzare applicazioni aziendali tra cui:
Riconoscimento di immagini e oggetti: gli algoritmi di apprendimento supervisionato possono essere utilizzati per individuare, isolare e classificare oggetti da video o immagini, rendendoli utili con tecniche di computer vision e attività di analisi delle immagini.
Analytics predittiva: modelli di apprendimento supervisionati creano sistemi di analytics predittiva per fornire insight. Ciò consente alle aziende di anticipare i risultati in base a una variabile di output e prendere decisioni basate sui dati, aiutando quindi i leader aziendali che devono giustificare le proprie scelte o devono cambiare rotta a beneficio dell'organizzazione.
La regressione consente anche agli operatori sanitari di prevedere gli esiti in base ai criteri dei pazienti e ai dati storici. Un modello predittivo potrebbe valutare il rischio di un paziente per una specifica malattia o condizione, in base ai dati biologici e allo stile di vita.
Analisi del sentiment del cliente: le organizzazioni possono estrarre e classificare informazioni importanti da grandi volumi di dati inclusi contesto, emozioni e intenzioni, con un intervento umano minimo. L'analisi del sentiment offre una migliore comprensione delle interazioni con i clienti e può essere utilizzata per migliorare gli sforzi di coinvolgimento del brand.
Segmentazione dei clienti: i modelli di regressione possono prevedere il comportamento dei clienti in base a vari tratti e tendenze storiche. Le aziende possono utilizzare modelli predittivi per segmentare la propria base di clienti e delineare profili dei clienti al fine di migliorare le iniziative di marketing e sviluppo del prodotto.
Rilevamento dello spam: il rilevamento dello spam è un altro esempio di modello di apprendimento supervisionato. Utilizzando algoritmi di classificazione supervisionati, le organizzazioni possono addestrare i database a riconoscere modelli o anomalie nei nuovi dati per organizzare in modo efficace le corrispondenze spam e non-spam.
Forecasting: i modelli regressivi eccellono nel forecasting basato sulle tendenze storiche, il che li rende adatti all'uso nei settori finanziari. Le aziende possono anche utilizzare la regressione per prevedere le esigenze di inventario, stimare gli stipendi dei dipendenti ed evitare potenziali rallentamenti nella supply chain.
Motori di raccomandazione: grazie ai modelli di apprendimento supervisionato, i provider di contenuti e i marketplace online possono analizzare le scelte, le preferenze e gli acquisti dei clienti e creare motori di raccomandazione che forniscono consigli personalizzati, con maggiori probabilità di conversione.
Sebbene l'apprendimento supervisionato possa offrire alle aziende vantaggi come insight approfonditi sui dati e una migliore automazione, questa potrebbe non essere la scelta migliore per tutte le situazioni.
Limitazioni del personale: i modelli di apprendimento supervisionato possono richiedere determinati livelli di competenza per essere strutturati in modo accurato.
Coinvolgimento umano: i modelli di apprendimento supervisionato non sono in grado di apprendere autonomamente. I data scientist devono convalidare l'output delle prestazioni dei modelli.
Requisiti di tempo: i set di dati di addestramento sono grandi e devono essere etichettati manualmente, il che rende il processo di apprendimento supervisionato dispendioso in termini di tempo.
Inflessibilità: i modelli di apprendimento supervisionato faticano a etichettare i dati al di fuori dei limiti dei loro set di dati di addestramento. Un modello di apprendimento non supervisionato potrebbe essere maggiormente in grado di gestire nuovi dati.
Bias: i set di dati corrono il rischio di una maggiore probabilità di errore umano e di pregiudizio, con conseguente apprendimento errato degli algoritmi.
Overfitting: l'apprendimento supervisionato a volte può comportare un overfitting, ovvero quando un modello diventa troppo adattato al suo set di dati. Un'elevata precisione nell'addestramento può indicare un overfitting rispetto a prestazioni generalmente elevate. Per evitare l'overfitting è necessario che i modelli siano testati con dati diversi da quelli di addestramento.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.