Modelli generativi

Gli algoritmi generativi, che di solito comportano l'apprendimento non supervisionato, modellano la distribuzione dei punti dati, con l'obiettivo di prevedere la probabilità congiunta P(x,y) di un determinato punto dati che appare in un particolare spazio. Un modello di computer vision generativa potrebbe quindi identificare correlazioni come "le cose che sembrano auto di solito hanno quattro ruote" o "è improbabile che gli occhi appaiano sopra le sopracciglia".

Queste previsioni possono informare la generazione di risultati che il modello ritiene altamente probabili. Ad esempio, un modello generativo addestrato su dati di testo può potenziare l'ortografia e i suggerimenti di completamento automatico; passando a un livello più complesso, può generare un testo completamente nuovo. In sostanza, quando un LLM produce un testo, ha calcolato un'alta probabilità che quella sequenza di parole sia stata assemblata in risposta al prompt che gli è stato dato.

Altri casi d'uso comuni per i modelli generativi sono la sintesi di immagini, la composizione musicale, il trasferimento di stile e la traduzione linguistica.

Esempi di modelli generativi includono:

Modelli di diffusione: i modelli di diffusione aggiungono gradualmente rumore gaussiano ai dati di addestramento fino a renderli irriconoscibili, quindi apprendono un processo di "denoising" inverso in grado di sintetizzare l'output (di solito immagini) dal rumore casuale di partenza.

Autoencoder variazionali (VAE): i VAE sono costituiti da un codificatore che comprime i dati di input e un decoder che impara a invertire il processo e mappare la probabile distribuzione dei dati.

Modelli trasformatori: i modelli trasformatori utilizzano tecniche matematiche chiamate "attenzione" o "auto-attenzione" per identificare come i diversi elementi di una serie di dati si influenzino a vicenda. L'acronimo "GPT" in Chat-GPT di OpenAI sta per "trasformatore generativo pre-addestrato" (Generative Pretrained Transformer).

Modelli discriminativi

Gli algoritmi discriminativi , che di solito comportano l'apprendimento supervisionato, modellano i confini tra le classi di dati (o "confini decisionali"), con l'obiettivo di prevedere la probabilità condizionata P(y|x) di un dato punto dati (x) che rientra in una certa classe (y). Un modello di computer vision discriminante potrebbe apprendere la differenza tra "auto" e "non auto" individuando alcune differenze chiave (come "se non ha le ruote, non è un'auto"), il che gli consente di ignorare molte correlazioni di cui un modello generativo deve tenere conto. I modelli discriminativi tendono, quindi, a richiedere meno potenza di calcolo.

I modelli discriminanti sono, naturalmente, adatti per attività di classificazione come la sentiment analysis, ma hanno molti usi. Ad esempio, i modelli ad albero decisionale e a foresta casuale suddividono i processi decisionali complessi in una serie di nodi, in cui ogni "foglia" rappresenta una potenziale decisione di classificazione.

Casi d'uso

Sebbene i modelli discriminativi o generativi possano generalmente superarsi a vicenda per determinati casi d'uso reali, molti compiti possono essere svolti con entrambi i tipi di modelli. Ad esempio, i modelli discriminativi hanno molti usi nell'elaborazione del linguaggio naturale (PNL) e spesso superano l'AI generativa per attività come la traduzione automatica (che comporta la generazione di testo tradotto).

Allo stesso modo, i modelli generativi possono essere utilizzati per la classificazione utilizzando il teorema di Bayes. Invece di determinare da che parte di un confine decisionale si trova un'istanza (come farebbe un modello discriminativo), un modello generativo potrebbe determinare la probabilità di ciascuna classe che genera l'istanza e scegliere quella con la probabilità più alta.

Molti sistemi di intelligenza artificiale impiegano insieme entrambi i metodi. In una rete generativa antagonista, ad esempio, un modello generativo genera dati campione e un modello discriminativo determina se tali dati sono "reali" o "falsi". L'output del modello discriminativo viene utilizzato per addestrare il modello generativo fino a quando il discriminatore non è più in grado di distinguere i dati generati come "falsi".