L'apprendimento autosupervisionato è un sottoinsieme dell'apprendimento non supervisionato: tutte le tecniche di apprendimento autosupervisionato sono apprendimento non supervisionato, ma la maggior parte dell'apprendimento non supervisionato non comporta l'autosupervisione.
Né l’apprendimento non supervisionato né quello autosupervisionato utilizzano etichette nel processo di addestramento. Entrambi i metodi apprendono correlazioni e modelli intrinseci in dati non etichettati, anziché correlazioni imposte esternamente da set di dati annotati. Oltre a questo focus condiviso sui dati non etichettati, le differenze tra l'apprendimento autosupervisionato e quello non supervisionato rispecchiano in gran parte le differenze tra l'apprendimento non supervisionato e quello supervisionato.
I problemi che utilizzano l'apprendimento non supervisionato convenzionale non misurano i risultati rispetto a qualsiasi ground truth già noto. Ad esempio, un modello di associazione non supervisionato può alimentare un motore di raccomandazioni per l'e-commerce apprendendo quali prodotti siano spesso acquistati insieme. L'utilità del modello non deriva dalla replica delle previsioni umane, bensì dalla scoperta di correlazioni non evidenti agli osservatori umani.
L'apprendimento autosupervisionato misura i risultati rispetto a un ground truth, anche se implicitamente derivato da dati di addestramento non etichettati. Come i modelli supervisionati, i modelli autosupervisionati sono ottimizzati utilizzando una funzione di perdita, ovvero un algoritmo che misura la divergenza (detta "perdita") tra il ground truth e le previsioni del modello. Durante l'addestramento, i modelli autosupervisionati utilizzano la discesa del gradiente durante la retropropagazione per regolare i pesi dei modelli, in modo da ridurre al minimo le perdite (e quindi migliorare la precisione).
Guidati da questa differenza fondamentale, i due metodi si concentrano su diversi casi d'uso: i modelli non supervisionati vengono utilizzati per attività come clustering, rilevamento delle anomalie e riduzione della dimensionalità, che non richiedono una funzione di perdita, mentre i modelli autosupervisionati vengono utilizzati per le attività di classificazione e regressione tipiche dell'apprendimento supervisionato.