O aprendizado autossupervisionado é um subconjunto do aprendizado não supervisionado: todas as técnicas de aprendizado autossupervisionado são aprendizados não supervisionados, mas a maior parte do aprendizado não supervisionado não implica em autossupervisão.
Nem o aprendizado não supervisionado nem o autossupervisionado usam rótulos no processo de treinamento: ambos os métodos aprendem correlações e padrões intrínsecos nos dados não rotulados, em vez de correlações impostas externamente a partir de conjuntos de dados anotados. Além desse foco compartilhado em dados não rotulados, as diferenças entre o aprendizado autossupervisionado e o não supervisionado refletem amplamente as diferenças entre o aprendizado não supervisionado e o supervisionado.
Os problemas que usam o aprendizado não supervisionado convencional não medem os resultados em relação a nenhuma verdade absoluta pré-conhecida. Por exemplo, um modelo de associação não supervisionado poderia alimentar um mecanismo de recomendação de comércio eletrônico, aprendendo quais produtos são frequentemente comprados juntos. A utilidade do modelo não é derivada da replicação de previsões humanas, mas da descoberta de correlações não aparentes para observadores humanos.
O aprendizado autossupervisionado mede os resultados em relação a uma verdade absoluta, embora seja implicitamente derivado de dados de treinamento não rotulados. Assim como os modelos supervisionados, os modelos autossupervisionados são otimizados usando uma função de perda: um algoritmo que mede a divergência ("perda") entre a verdade absoluta e as previsões do modelo. Durante o treinamento, os modelos autossupervisionados usam o gradiente decrescente durante a retropropagação para ajustar os pesos do modelo de forma a minimizar a perda (e, assim, aumentar a precisão).
Devido a essa diferença fundamental, os dois métodos se concentram em casos de uso diferentes: os modelos não supervisionados são usados para tarefas como agrupamento, detecção de anomalias e redução de dimensionalidade, que não exigem uma função de perda, enquanto os modelos autossupervisionados são usados para tarefas de classificação e regressão típicas do aprendizado supervisionado.