Cos'è il machine learning statistico?

Autori

Developer Advocate

IBM

Machine learning statistico

Introduzione: cos'è il pensiero statistico nel machine learning?

Nell'era moderna della gen AI, vediamo i professionisti creare modelli di machine learning (ML), da semplici regressioni lineari a reti neurali complesse e sofisticate, fino a modelli linguistici di grandi dimensioni (LLM) generativi. Vediamo anche una data science onnipresente per prevedere il tasso di abbandono dei clienti, i sistemi di raccomandazione e altri casi d'uso. Tuttavia, anche se i modelli di machine learning (ML) possono sembrare eseguiti su enormi set di dati e potenti algoritmi, dietro le quinte sono fondamentalmente un processo statistico.

Il machine learning si basa su tecniche statistiche e strumenti matematici, inclusi metodi bayesiani, algebra lineare e strategie di convalida, che conferiscono struttura e rigore al processo. Che si tratti di creare un classificatore non lineare, di ottimizzare un sistema di raccomandazione o di sviluppare un modello generativo in Python, si applicano i principi fondamentali del machine learning statistico.

Ogni volta che si addestra un modello, si stimano i parametri dai dati. Quando si esegue il test, ci si chiede: questo modello è reale o è solo un rumore casuale? Come possiamo quantificare l'errore utilizzando le metriche di valutazione? Queste sono domande statistiche. Il processo di test statistici ci aiuta a integrare fiducia nella costruzione e nell'interpretazione delle metriche dei modelli. Comprendere questi prerequisiti non è solo fondamentale, bensì è essenziale per creare sistemi AI robusti e interpretabili basati sull'informatica e sul ragionamento matematico.

Questo articolo svela i pilastri statistici alla base del moderno ML, non solo per demistificare la matematica, ma per fornirti i modelli mentali necessari per costruire, eseguire il debug e interpretare i sistemi di machine learning con sicurezza.

Esamineremo sei concetti interconnessi:

1. Statistiche: fondamentalmente, cosa sono le statistiche e come vengono utilizzate nell'AI moderna?

2. Probabilità: come si quantifica l'incertezza nei dati?

3. Distribuzioni: Come modellare il comportamento dei dati?

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Cos'è la statistica?

La statistica è la scienza dell'estrazione di insight dai dati. Organizza, analizza e interpreta le informazioni per scoprire modelli e prendere decisioni in condizioni di incertezza. Nel contesto della data science e degli algoritmi di machine learning, le statistiche forniscono le basi matematiche per comprendere il comportamento dei dati, guidare le scelte dei modelli e valutare i risultati. Trasforma set di dati disordinati e rumorosi in intelligence fruibile.

Il machine learning moderno si basa su metodi statistici. Che tu stia applicando l'apprendimento supervisionato (ad esempio, regressione o classificazione), l'apprendimento non supervisionato (ad esempio, clustering) o l'apprendimento per rinforzo, stai utilizzando strumenti radicati nell'inferenza statistica. Le statistiche ci consentono di quantificare l'incertezza, generalizzare a partire da campioni e trarre conclusioni su popolazioni più ampie, il tutto essenziale per creare sistemi di intelligenza artificiale (AI) affidabili.

Statistica descrittiva: comprendere le basi

Prima di addestrare i modelli, eseguiamo l'analisi esplorativa dei dati (EDA), un processo che si basa su statistiche descrittive per riassumere le caratteristiche chiave dei dati. Questi riepiloghi ci informano sulla tendenza centrale e sulla variabilità di ciascuna caratteristica, aiutando a identificare gli outlier, i problemi di qualità dei dati e le esigenze di pre-elaborazione. La comprensione di queste proprietà è un prerequisito per la creazione di modelli efficaci e per la scelta di algoritmi di machine learning adeguati.

Misure chiave:

Media:

La media aritmetica dei valori. Comune nella misurazione della centralità e nelle funzioni di perdita come l'errore quadratico medio (MSE).

Esempio: se i valori di acquisto dei clienti aumentano, la media rileva cambiamenti nel comportamento.

Mediana:

Valore medio quando i dati vengono ordinati. Più resistente agli outlier rispetto alla media.

Esempio: nei dati sul reddito, la mediana riflette meglio un caso "tipico" in presenza di una ricchezza asimmetrica.

Moda:

Il valore che ricorre più frequentemente. Utile per caratteristiche categoriche o per il voto a maggioranza (come in alcuni metodi di insieme).

Esempio: trovare il browser più utilizzato dai visitatori del sito.

Deviazione standard (SD):

Misura la distribuzione dei valori rispetto alla media. Una SD bassa implica che i punti dati sono raggruppati vicino alla media, mentre una SD alta indica una maggiore variabilità.

Esempio: nella convalida del modello, una caratteristica con alta varianza potrebbe richiedere normalizzazione per non dominare le altre in algoritmi basati sulla distanza, come k-nearest neighbors.

Intervallo interquartile (IQR):

L'intervallo tra il 75° e il 25° percentile (Q3 - Q1). Cattura il 50% medio dei dati ed è utile per rilevare gli outlier.

Esempio: in un'attività di segmentazione dei clienti, un IQR elevato nella spesa potrebbe indicare un comportamento incoerente tra i sottogruppi.

Asimmetria:

Indica l'asimmetria di una distribuzione. Un'inclinazione positiva significa una coda destra più lunga, mentre un'inclinazione negativa significa una coda sinistra più lunga. Le caratteristiche asimmetriche potrebbero violare le ipotesi dei modelli lineari o aumentare le metriche basate sulla media.

Esempio: distribuzioni con asimmetria positiva (come i redditi) possono richiedere una trasformazione logaritmica prima di applicare una regressione lineare.

Curtosi:

Descrive la "coda" della distribuzione, ovvero la probabilità di valori estremi. Una curtosi elevata implica outlier più frequenti, mentre una curtosi bassa indica una distribuzione più piatta.

Esempio: nel rilevamento delle frodi, un'elevata curtosi negli importi delle transazioni potrebbe segnalare modelli di spesa anomali.

Queste misure guidano anche decisioni di pre-elaborazione come la normalizzazione, la standardizzazione o l'imputazione e influiscono sul modo in cui ingegnerizziamo nuove caratteristiche.

Statistica descrittiva nel machine learning

Durante l'EDA, le statistiche descrittive ci aiutano a:

Valutare le distribuzioni dei dati: le variabili sono gaussiane? Asimmetriche? Multimodali?
Identificare outlier ed errori: una discrepanza tra media e mediana potrebbe indicare valori insoliti.
Scoprire i problemi di qualità dei dati: ad esempio, rilevando età negative o categorie impossibili.
Selezionare il modello: una variabile target continua suggerisce la regressione; una variabile categoriale, la classificazione. Le relazioni tra le caratteristiche (ad esempio, la correlazione) potrebbero anche influenzare l'uso di metodi lineari, non parametrici o basati sul kernel.

Comprendere i dati con le statistiche aiuta anche a preparare modelli per gestire set di dati di grandi dimensioni, valutare le metriche dei modelli e mitigare rischi come l'overfitting. Ad esempio, i riepiloghi descrittivi potrebbero rivelare classi o scale di caratteristiche squilibrate che richiedono la normalizzazione, entrambe influiscono sulle prestazioni e sull'equità del modello.

Mixture of Experts | 28 agosto, episodio 70

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli ultimi episodi del podcast

Probabilità: il linguaggio dell'incertezza

La modellazione mediante il machine learning esiste a causa dell'incertezza. Se potessimo mappare perfettamente gli input con gli output, non ci sarebbe bisogno di modelli. Tuttavia, i dati del mondo reale sono disordinati, incompleti e rumorosi, quindi modelliamo le probabilità invece delle certezze. Conoscere le probabilità pone i fondamenti di tutto ciò che riguarda il machine learning e l'AI (IA). Le teorie delle probabilità ci permettono di comprendere i dati che abbiamo usato per modellare in modo bello ed elegante. Riveste un ruolo critico nella modellazione delle incertezze nelle previsioni dei modelli di ML. Ci aiuta a quantificare la verosimiglianza, la probabilità e le certezze per un modello statistico in modo da poter misurare con sicurezza i modelli di risultato che creiamo. Immergersi nel mondo delle probabilità e apprendere i fondamenti ti aiuterà a comprendere le basi di tutti i modelli di apprendimento statistico e come si realizzano le loro previsioni. Imparerai come possiamo fare inferenze e produrre risultati probabilistici.

Per apprendere le distribuzioni più diffuse e modellare i dati con sicurezza, andiamo alle basi e chiariamo alcune terminologie.

Variabile casuale: una rappresentazione numerica di un risultato di un fenomeno casuale. È una variabile i cui possibili valori sono risultati numerici di un processo casuale.

Variabile casuale discreta: una variabile casuale che può assumere un numero finito o contabilmente infinito di valori distinti. Ad esempio, l'esito di un lancio di una moneta (Testa = 1, Croce = 0) o il numero di e-mail di spam ricevute in un'ora.

Variabile casuale continua: una variabile casuale che può assumere qualsiasi valore all'interno di un determinato intervallo. Ad esempio, l'altezza di una persona, la temperatura in una stanza o la quantità di pioggia.

Evento: un insieme di uno o più risultati di un processo casuale. Ad esempio, ottenere un numero pari lanciando un dado (risultati: 2, 4, 6) o un cliente che se ne va.

Risultato: un singolo possibile risultato di un esperimento casuale. Ad esempio, lanciare una moneta produce "Testa" o " Croce".

Probabilità $P (A)$ : una misura numerica della probabilità che un evento $A$ avverrà, da 0 (impossibile) a 1 (certo).

Probabilità condizionata $P (A | B)$ : La probabilità dell'evento $A$ di verificarsi, dato che l'evento $A$ è già avvenuto. Questo passaggio è fondamentale nell'ML, poiché spesso vogliamo prevedere un risultato in base a caratteristiche specifiche.

La probabilità è una misura di quanto sia probabile che un evento accada, variando da 0 (impossibile) a 1 (certo).

Nel machine learning, questo spesso assume la forma di probabilità condizionata

Esempio: un modello di regressione logistica potrebbe dire

> “Età = 45, reddito = 60K USD e storia precedente

> la probabilità di abbandono è 0,82."

Questo esempio non significa che il cliente abbandonerà, ma si tratta di una convinzione basata sui modelli statistici nei dati di addestramento.

Nell'era moderna della gen AI, i modelli probabilistici come la regressione logistica svolgono un ruolo enorme nel determinare i risultati e gli output di un modello. Questo ruolo si manifesta spesso sotto forma di attivazione negli strati delle reti neurali.

Distribuzioni: modellazione del comportamento dei dati

Una distribuzione di probabilità è una funzione matematica che descrive i possibili valori e le verosimiglianze che una variabile casuale può assumere all'interno di un determinato intervallo. Comprendere le distribuzioni è fondamentale nel machine learning perché i dati raramente esistono come punti singoli e isolati, bensì hanno una struttura e una "forma". Alcune terminologie che dobbiamo specificare sono:

Distribuzione discreta: si applica alle variabili che assumono valori distinti e numerabili (ad esempio, lanci di monete, conteggio delle parole).
Distribuzione continua: si applica alle variabili che possono assumere qualsiasi valore all'interno di un intervallo (ad esempio, altezza, peso, tempo).

Concetti fondamentali

Funzione di massa di probabilità (PMF): il PMF si applica alle variabili casuali discrete, variabili che assumono valori numerabili e distinti come 0 o 1, testa o croce, o il numero di clienti che arrivano in un negozio. Il PMF indica la probabilità esatta di ogni possibile risultato. Ad esempio, se tiri un dado a sei facce, il PMF assegna una probabilità di 1/6 a ciascuno dei risultati $1, 2, 3, 4, 5, 6$ . A differenza del PDF (che distribuisce la densità di probabilità in un intervallo), il PMF concentra la probabilità su valori esatti.
Funzione di densità di probabilità (PDF): ci aiuta a ragionare su percentili, quantili e soglie di probabilità, concetti spesso utilizzati nei modelli di soglia, controllo di equità e interpretabilità.
Funzione di distribuzione cumulativa (CDF): la CDF fornisce la probabilità cumulativa che un valore sia inferiore o uguale a una soglia specifica. Passa da 0 a 1 man mano che ci si sposta lungo l'asse x ed è particolarmente utile quando si risponde a domande come: "Qual è la percentuale di clienti che spende meno di 50 USD?"
Funzione di massa cumulativa (CMF): la CMF è la controparte discreta della CDF. Fornisce la probabilità cumulativa che una variabile discreta assuma un valore minore o uguale a un punto particolare.

Fare le giuste ipotesi sulla distribuzione dei suoi dati è critico: molti algoritmi di machine learning si basano su questi presupposti sia per la selezione che per l'interpretazione dei modelli. Ipotesi errate possono portare a stime distorte, funzioni di perdita non allineate e, in ultima analisi, generalizzazioni errate o conclusioni non valide nelle applicazioni del mondo reale.

Le distribuzioni di probabilità sono alla base di:

Modellazione degli errori: ipotesi sui residui nella regressione (spesso gaussiane).
Funzioni di perdita: l'MSE corrisponde ad assunzioni gaussiane, mentre la cross-entropy a una distribuzione di tipo Bernoulli o logistica.
Progettazione del modello: gli obiettivi di classificazione sono spesso modellati attraverso Bernoulli; le variabili latenti nei modelli generativi profondi utilizzano i priori gaussiani.
AI generativa: il campionamento dalle distribuzioni ad alta dimensionalità apprese è fondamentale per modelli come le reti avversarie generative (GAN) e VAE.

Esempio di distribuzione discreta: esperimenti di Bernoulli

La distribuzione di Bernoulli modella la probabilità di successo o fallimento in una singola prova di un evento casuale discreto. Questo significa che ha solo due risultati: 1 (successo) o 0 (fallimento). È il tipo di distribuzione più semplice utilizzato nelle statistiche, eppure costituisce la base di molti problemi di classificazione nel machine learning. Ad esempio, se dovessi lanciare una moneta 10 volte e ottenere 7 teste (successo) e 3 croci (fallimento), la funzione di massa di probabilità (PMF) può essere rappresentata graficamente come:

Distribuzione dei lanci di moneta - grafico a barre

Il lancio di una moneta è un classico esperimento di Bernoulli. Applichiamo la funzione di massa di probabilità all'esempio del lancio della moneta

- Sia $X$ una variabile casuale che rappresenta il risultato di un lancio

- Se le teste sono considerate un successo, definiamo $X = 1$ per teste e $X = 0$ per croce

- Se la moneta è equilibrata, la probabilità che esca testa è $p = 0.5$

La funzione di massa di probabilità (PMF) della distribuzione di Bernoulli è:

$P (X = x) = p^{x} (1 - p)^{1 - x}, f o r x \in {0, 1}$

Distribuzione di Bernoulli - grafico lollipop

Dove:

p è la probabilità di successo (X=1)
1 - p è la probabilità di fallimento (X=0)
x è l'esito osservato (1 o 0)

Applicazione al machine learning: distribuzione discreta

Comprendere la PMF di Bernoulli è essenziale perché costituisce la spina dorsale probabilistica di molti modelli di classificazione. In particolare, la regressione non produce solo un'etichetta di classe, ma stima la probabilità che un particolare input appartenga alla classe 1. Questa probabilità prevista viene interpretata come il parametro 𝑝 in una distribuzione di Bernoulli:

La funzione logistica (sigmoide) utilizzata nella regressione logistica assicura che i valori previsti rientrino nell'intervallo [0,1], rendendoli probabilità di Bernoulli valide. Il modello è addestrato per massimizzare la probabilità di osservare i veri risultati binari partendo dal presupposto che ogni valore target sia tratto da una distribuzione di Bernoulli con probabilità 𝑝 prevista dalle caratteristiche 𝑋. In questo caso, poiché vogliamo ridurre al minimo la perdita di addestramento, adottiamo un approccio di stima della massima verosimiglianza (MLE) per massimizzare la probabilità di un risultato, dati i dati. In genere, per distribuzioni discrete come quella di Bernoulli trasformiamo la probabilità in verosimiglianza per manipolare più facilmente. La verosimiglianza, come le probabilità, è sproporzionata, quindi di solito applichiamo una trasformazione logaritmica, nota come verosimiglianza logaritmica, e la funzione di perdita come perdita logaritmica. Se questa sezione sembra un po' confusa, puoi visitare l'articolo esplicativo della regressione menzionato in precedenza per la derivazione dettagliata della funzione di verosimiglianza logaritmica utilizzando l'MLE. Questa connessione fornisce le basi statistiche per interpretare gli output come stime probabilistiche. Altre applicazioni includono:

Il classificatore binario (alberi decisionali, le foreste casuali e le macchine vettoriali di supporto con risultati binari) considerano implicitamente la classificazione come una previsione dei risultati di Bernoulli, specialmente quando la calibrazione delle probabilità viene applicata dopo l'addestramento.
Metriche di valutazione: precisione, richiamo e punteggio F1 derivano fondamentalmente dal presupposto che ogni previsione sia un evento binario (esperimento di Bernoulli).

Esempio di distribuzione continua: distribuzione gaussiana (normale)

La distribuzione normale descrive una variabile casuale continua i cui valori tendono a cluster attorno a una media centrale, con variabilità simmetrica in entrambe le direzioni. È onnipresente in statistica perché molti fenomeni naturali (altezza, punteggi dei test, errori di misurazione) seguono questo modello, soprattutto se aggregati tra campioni.

Immagina di misurare l'altezza di 1.000 adulti. Tracciando questi dati si scopre una curva a campana: la maggior parte delle persone è vicina alla media, con meno persone agli estremi. Questa forma viene catturata dalla funzione di densità di probabilità (PDF) della distribuzione normale:

$f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})$

Dove:

𝑥 è una variabile continua (ad esempio, l'altezza)
𝜇 è la media (centro della distribuzione)
$σ^{2}$ la varianza (controlli diffusi)
Il denominatore $\sqrt{2 π σ^{2}}$ assicura che la somma dell'area sotto la curva sia 1
Il termine esponenziale penalizza valori lontani dalla media, rendendoli meno probabili

Applicazioni al machine learning: distribuzione continua

Regressione lineare: presuppone che i residui (errori) siano distribuiti normalmente, il che giustifica l'uso dell'errore quadratico medio (MSE) come funzione di perdita. Questa ipotesi consente ai modelli di fare interpretazioni probabilistiche e facilita l'inferenza statistica (ad esempio, intervalli di confidenza, verifica delle ipotesi sui coefficienti).
Modelli generativi: gli autoencoder variazionali (VAE), le GAN e altri modelli generativi spesso presuppongono che le variabili latenti seguano una distribuzione normale standard. I nuovi dati vengono generati campionando da questo spazio e trasformandoli attraverso reti apprese.
Regolarizzazione: tecniche come la regolarizzazione L2 (nota anche come regressione ridge) penalizzano i pesi dei modelli di grandi dimensioni aggiungendo un termine proporzionale al quadrato dei pesi alla funzione di perdita. Questo termine di penalità corrisponde all'assunzione di un priore gaussiano rispetto ai parametri del modello: in termini bayesiani, è come se credessimo che i pesi siano tratti da una distribuzione normale centrata su zero. Questo principio trasforma la regolarizzazione in un problema di ottimizzazione radicato nella probabilità, che promuove modelli più semplici e riduce l'overfitting.

Conclusione

Al centro di ogni sistema di machine learning c'è una spina dorsale statistica, ovvero un'impalcatura invisibile che supporta tutto, dalla progettazione del modello all'interpretazione. Abbiamo iniziato esplorando cos'è veramente la statistica: non solo una branca della matematica, bensì un linguaggio per dare un senso all'incertezza ed estrarre significato dai dati. Le statistiche descrittive forniscono la prima lente attraverso la quale esaminiamo e riassumiamo la complessità del mondo, offrendo chiarezza prima ancora di iniziare la modellazione.

Successivamente, ci siamo addentrati nella probabilità, l'insieme di strumenti formali per ragionare in condizioni di incertezza. Nel machine learning, le probabilità ci aiutano a quantificare la probabilità di un risultato, consentendo ai modelli di esprimere fiducia piuttosto che limitarsi a previsioni rigide. Che si tratti della possibilità che un cliente abbandoni o della probabilità che un'etichetta venga classificata, la teoria della probabilità trasforma i dati non elaborati in insight.

Infine, abbiamo esplorato le distribuzioni, che definiscono il comportamento dei dati in diversi scenari. Dai risultati binari della modellazione di distribuzione discreta di Bernoulli, alla distribuzione gaussiana continua che modella le nostre ipotesi nei modelli di regressione e generativi: comprendere queste distribuzioni è fondamentale. Sono alla base sia dei dati che osserviamo che degli algoritmi che costruiamo, guidando la scelta del modello, modellando le funzioni di perdita e consentendo un'inferenza significativa.

Nei moderni algoritmi di machine learning, dalla regressione logistica e naive Bayes al deep learning e ai metodi kernel, questi principi statistici non sono componenti aggiuntivi opzionali: sono la meccanica stessa del machine learning. Ci aiutano a ragionare sull'incertezza, ottimizzare le prestazioni e generalizzare da osservazioni limitate a processi decisionali reali. Padroneggiando queste basi, non si impara solo a usare il machine learning, ma si impara a capirlo, a costruirlo e a trarne inferenze.

Anche nell'era dell'AI generativa e dei modelli di deep learning su larga scala, le statistiche rimangono più rilevanti che mai. Dietro ogni strato di transformer e ogni fase di diffusione c'è una base costruita sulla probabilità, sulla stima e sulle ipotesi distributive. Comprendere concetti come il compromesso bias-varianza e l'incertezza non è solo un esercizio accademico: è essenziale per interpretare modelli black box, diagnosticare le modalità di errore e sviluppare un'AI responsabile e spiegabile. Che tu stia perfezionando un foundation model, applicando tecniche bayesiane per la quantificazione dell'incertezza o valutando output generativi, il ragionamento statistico ti fornisce gli strumenti per affrontare la complessità con chiarezza. Man mano che i sistemi di gen AI diventano più potenti, basare la propria attività sui principi statistici garantisce che i modelli rimangano non solo all'avanguardia, ma anche affidabili e basati su principi.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Cos'è il machine learning statistico?

Autori

Machine learning statistico

Introduzione: cos'è il pensiero statistico nel machine learning?

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Cos'è la statistica?

Statistica descrittiva: comprendere le basi

Misure chiave:

Statistica descrittiva nel machine learning

Decoding AI: Weekly News Roundup

Probabilità: il linguaggio dell'incertezza

Distribuzioni: modellazione del comportamento dei dati

Concetti fondamentali

Esempio di distribuzione discreta: esperimenti di Bernoulli

Applicazione al machine learning: distribuzione discreta

Esempio di distribuzione continua: distribuzione gaussiana (normale)

Applicazioni al machine learning: distribuzione continua

Conclusione

Risorse