I modelli di deep learning più all'avanguardia per la classificazione o la regressione sono addestrati tramite l'apprendimento supervisionato, che richiede molti esempi etichettati di classi di dati pertinenti. I modelli "apprendono" facendo previsioni su un set di dati di addestramento etichettati; le etichette dei dati forniscono sia la gamma di risposte possibili sia le risposte corrette (o la verità di base) per ogni esempio di addestramento. "Imparare", in questo caso, significa regolare le ponderazioni del modello per ridurre al minimo la differenza tra le previsioni del modello e la verità di base. Questo processo richiede un numero sufficiente di campioni etichettati per molti cicli di addestramento e aggiornamenti.
Sebbene potente, l'apprendimento supervisionato non è pratico in alcuni scenari del mondo reale. Annotare grandi quantità di campioni di dati è costoso e richiede molto tempo e, in casi come quelli delle malattie rare e delle specie appena scoperte, gli esempi possono essere pochi oppure possono non esserci. Consideriamo attività di riconoscimento delle immagini: secondo uno studio, gli esseri umani sono in grado di riconoscere circa 30.000 categorie di oggetti distinguibili singolarmente.1 In termini di tempo, costi e risorse computazionali, i modelli di intelligenza artificiale si avvicinano nemmeno lontanamente alle capacità umane, se devono essere addestrati esplicitamente su dati etichettati per ciascuna classe.
L'esigenza che i modelli di machine learning riuscissero a ricondurre rapidamente oggetti a un gran numero di categorie semantiche con costi di addestramento minimi ha dato luogo allo n-shot learning: un sottoinsieme di machine learning che include anche few-shot learning (FSL) e one-shot learning. Il few-shot learning utilizza in genere metodi basati sull'apprendimento di trasferimento e sul meta-apprendimentoper addestrare i modelli a riconoscere rapidamente le nuove classi con solo pochi esempi di addestramento etichettati o, nel one-shot learning, un singolo esempio etichettato.
Lo zero-shot learning, come tutto l'apprendimento n-shot, non si riferisce a un algoritmo specifico o a un'architettura di rete neurale, ma alle caratteristiche del problema di apprendimento stesso: in ZSL, il modello non viene addestrato su alcun esempio etichettato delle classi non viste su cui viene chiesto di fare previsioni post-addestramento.
Questa configurazione del problema non tiene conto della presenza di tale classe (anche se senza etichetta) nei dati di addestramento. Ad esempio, alcuni grandi modelli linguistici (LLS) sono adatti alle attività ZSL, in quanto sono pre-addestrati tramite l'apprendimento autovalutato su un massiccio corpus di testo che può contenere riferimenti o conoscenze accidentali sulle classi di dati non viste. Senza esempi etichettati a cui attingere, i metodi ZSL si basano tutti sull'uso di tali conoscenze ausiliarie per fare previsioni.
Considerata la sua versatilità e l'ampia gamma di casi d'uso, lo zero-shot learning è diventato un'area di ricerca sempre più importante nella data science, in particolare nei campi della computer vision e dell'elaborazione del linguaggio naturale (NLP).