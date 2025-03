Il masking è un'altra tecnica di addestramento in cui i modelli linguistici visivi imparano a prevedere parti di un testo o di un'immagine di input oscurate in modo casuale. Nel masked language modeling, i VLM imparano a riempire le parole mancanti in una didascalia di testo in base a un'immagine non mascherata.



Nel masked image modeling, i VLM imparano a ricostruire i pixel nascosti in un'immagine in base a una didascalia non mascherata.

Un esempio di modello che utilizza il masking è FLAVA (Foundational Language And Vision Alignment). FLAVA utilizza un trasformatore visivo come encoder di immagini e un'architettura trasformativa sia per l'encoder linguistico che per l'encoder multimodale.



L'encoder multimodale applica un meccanismo di attenzione incrociata per integrare informazioni testuali e visive. L'addestramento di FLAVA include il masked modeling e l'apprendimento contrastivo.1