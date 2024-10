Essenziale per comprendere i VAE o qualsiasi altro tipo di autoencoder è la nozione di spazio latente, il nome dato all'insieme delle variabili latenti di uno specifico insieme di dati di input. In breve, le variabili latenti sono variabili spesso non sono direttamente osservabili sottostanti ai dati che informano il modo in cui i dati vengono distribuiti.

Per un'utile visualizzazione del concetto di variabili latenti, immaginiamo un ponte con un sensore che misura il peso di ogni veicolo in transito. Naturalmente, i veicoli che utilizzano il ponte sono diversi, dalle cabriolet piccole e leggere ai camion più pesanti. Poiché non c'è una telecamera, non abbiamo modo di rilevare se un veicolo specifico è una cabriolet, una berlina, un furgone o un camion. Tuttavia, sappiamo che il tipo di veicolo influenza in modo significativo il peso di quel veicolo.

Questo esempio comporta quindi due variabili casuali, x e z, in cui x è la variabile direttamente osservabile del peso del veicolo e z è la variabile latente del tipo di veicolo. L'obiettivo formativo principale di qualsiasi autoencoder è imparare a modellare in modo efficiente lo spazio latente di un particolare input.



Riduzione dello spazio latente e della dimensionalità

Gli autoencoder modellano lo spazio latente attraverso la riduzione della dimensionalità: la compressione dei dati in uno spazio di dimensioni inferiori che acquisisce le informazioni significative contenute nell'input originale.

Nel contesto del machine learning (ML), le dimensioni matematiche non corrispondono alle dimensioni spaziali familiari del mondo fisico, ma alle caratteristiche dei dati. Ad esempio, un'immagine in bianco e nero di 28x28 pixel di una cifra scritta a mano dal set di dati MNIST può essere rappresentata come un vettore a 784 dimensioni, in cui ogni dimensione corrisponde a un singolo pixel il cui valore varia da 0 (per il nero) a 1 (per il bianco). La stessa immagine a colori potrebbe essere rappresentata come un vettore di 2.352 dimensioni, in cui ciascuno dei 784 pixel è rappresentato in tre dimensioni corrispondenti ai rispettivi valori di rosso, verde e blu (RGB).

Tuttavia, non tutte queste dimensioni contengono informazioni utili. La cifra vera e propria rappresenta solo una piccola parte dell'immagine, quindi la maggior parte dello spazio di input è costituito da rumore di fondo. La compressione dei dati fino alle sole dimensioni che contengono informazioni rilevanti (lo spazio latente) può migliorare la precisione, l'efficienza e l'efficacia di molti compiti e algoritmi di ML.