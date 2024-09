L'apprendimento autosupervisionato (SSL) è particolarmente utile in campi come computer vision ed elaborazione del linguaggio naturale (NLP), che richiedono grandi quantità di dati etichettati per addestrare modelli di intelligenza artificiale (IA) all'avanguardia. Poiché questi set di dati etichettati richiedono lunghe annotazioni da parte di esperti umani, raccogliere una quantità di dati sufficiente può essere difficile se non addirittura impossibile. Gli approcci autosupervisionati sono più economici sia in termini di tempo che di costi, poiché sostituiscono in tutto o in parte la necessità di etichettare manualmente i dati di addestramento.

Per addestrare un modello di deep learning per attività che richiedono precisione, ad esempio la classificazione o la regressione, è necessario essere in grado di confrontare le previsioni di output del modello per un determinato input con le previsioni "corrette" per tale input, solitamente chiamate ground truth. Solitamente, i dati di addestramento etichettati manualmente fungono da ground truth e, poiché questo metodo richiede l'intervento diretto dell'uomo, viene chiamato apprendimento "supervisionato". Nell’apprendimento autosupervisionato, i compiti sono progettati in modo tale che la "ground truth" possa essere dedotta da dati non etichettati .

In SSL, le attività rientrano in due categorie: attività pretesto e attività a valle. In un'attività pretesto, l'SSL viene utilizzato per addestrare un sistema di AI affinché apprenda rappresentazioni significative dei dati non strutturati. Tali rappresentazioni apprese possono essere poi utilizzate come input per un'attività a valle, come un'attività di apprendimento supervisionato o di apprendimento per rinforzo. Il riutilizzo di un modello pre-addestrato su una nuova attività viene definito "trasferimento dell’apprendimento".

L'apprendimento autosupervisionato viene utilizzato nell'addestramento di una vasta gamma di sofisticate architetture di deep learning per diversi tipi di compiti, dai modelli linguistici di grandi dimensioni (LLM) basati su trasformatori come BERT e GPT ai modelli di sintesi di immagini come gli autoencoder variazionali (VAE), dalle reti generative avversarie (GAN) ai modelli di computer vision come SimCLR e Momentum Contrast (MoCo).