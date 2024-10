Essencial para entender VAEs ou qualquer outro tipo de autocodificadores é a noção de espaço latente, o nome dado às variáveis latentes coletivas de um conjunto específico de dados de entrada. Em suma, variáveis latentes são variáveis subjacentes de dados que informam a maneira como os dados são distribuídos, mas muitas vezes não são diretamente observáveis.

Para uma visualização útil do conceito de variáveis latentes, imagine uma ponte com um sensor que mede o peso de cada veículo que passa. Naturalmente, há diferentes tipos de veículos que usam a ponte, desde conversíveis pequenos e leves até caminhões enormes e pesados. Como não há câmera, não temos como detectar se um veículo específico é conversível, sedan, van ou caminhão. No entanto, sabemos que o tipo de veículo influencia significativamente seu peso.

Este exemplo, portanto, envolve duas variáveis aleatórias, x e z, nas quais x é a variável diretamente observável do peso do veículo e z é a variável latente do tipo de veículo. O objetivo primário de treinamento de qualquer autocodificador é aprender a modelar com eficiência o espaço latente de uma entrada específica.



Espaço latente e redução da dimensionalidade

Os autocodificadores modelam o espaço latente por meio da redução da dimensionalidade: a compressão de dados em um espaço de dimensão inferior, que captura as informações significativas contidas na entrada original.

Em um contexto de aprendizado de máquina (ML), as dimensões matemáticas não correspondem às dimensões espaciais conhecidas do mundo físico, mas aos recursos dos dados. Por exemplo, uma imagem em preto e branco de 28x28 pixels de um dígito manuscrito do conjunto de dados MNIST pode ser representada como um vetor de 784 dimensões, no qual cada dimensão corresponde a um pixel individual cujo valor varia de 0 (para preto) a 1 (para branco). Essa mesma imagem em cores pode ser representada como um vetor de 2.352 dimensões, no qual cada um dos 784 pixels é representado em três dimensões correspondentes aos seus respectivos valores de vermelho, verde e azul (RGB).

No entanto, nem todas essas dimensões contêm informações úteis. O dígito real em si representa apenas uma pequena fração da imagem; portanto, a maior parte do espaço de entrada é ruído de fundo. Compactar os dados apenas para as dimensões que contêm informações relevantes (o espaço latente) pode melhorar a precisão, eficiência e eficácia de muitas tarefas e algoritmos de ML.