As estruturas codificador-decodificador , em que uma rede de codificador extrai os principais recursos dos dados de entrada e uma rede de decodificador utiliza esses dados de recursos extraídos como entrada, são utilizadas em vários modelos de deep learning, como as arquiteturas de rede neural convolucional (CNN) utilizadas em tarefas de visão computacional, como segmentação de imagens, ou as arquiteturas de rede neural recorrente (RNN) utilizadas em tarefas de sequência-a-sequência (seq2seq).

Na maioria das aplicações de modelos de codificador-decodificador, a saída da rede neural é diferente da entrada. Por exemplo, em modelos de segmentação de imagens como U-Net, a rede do codificador extrai dados de recursos da imagem de entrada para determinar a classificação semântica de diversos pixels. Com esse mapa de recursos e essas classificações por pixel, a rede do decodificador constrói máscaras de segmentação para cada objeto ou região da imagem. O objetivo desses modelos codificadores-decodificadores é rotular com precisão os pixels de acordo com sua classe semântica: são treinados por meio de aprendizado supervisionado, otimizando as previsões do modelo em relação a um conjunto de dados de imagens "verdadeiras" rotuladas por especialistas humanos.

Os codificadores automáticos se referem a um subconjunto específico de arquiteturas de codificador-decodificador treinadas por meio de aprendizado não supervisionado para reconstruir seus próprios dados de entrada .

Como não dependem de dados de treinamento rotulados, os codificadores automáticos não são considerados um método de aprendizado supervisionado. Como todos os métodos de aprendizado não supervisionado, os codificadores automáticos são treinados para descobrir padrões ocultos em dados não rotulados, em vez de prever padrões conhecidos demonstrados em dados de treinamento rotulados. No entanto, como os modelos de aprendizado supervisionado e ao contrário da maioria dos exemplos de aprendizado não supervisionado, os codificadores automáticos têm uma verdade básica para medir sua saída: a entrada original em si (ou alguma versão modificada). Por esse motivo, são considerados “aprendizado autossupervisionado”, daí, codificador automático.