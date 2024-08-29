La modellazione del linguaggio mascherato è una caratteristica del pre-addestramento del modello transformer BERT, infatti, i due sono stati introdotti insieme alla comunità di machine learning. Prima di BERT, i modelli linguistici erano unidirezionali. Questo significa che hanno imparato le rappresentazioni linguistiche considerando solo il testo che precede una data parola. L'approccio di BERT a un compito di modellazione linguistica mascherata, tuttavia, considera sia il testo precedente che quello successivo.4 La differenza principale tra gli approcci unidirezionali e bidirezionali dipende dal modo in cui lo strato di autoattenzione del trasformatore decodifica i valori di output.

Quando si prevede la parola successiva in una sequenza o, nel nostro caso, i valori mancanti, un modello unidirezionale considera solo quelle parole che precedono il valore mancante. I decoder di transformer che operano in questo modo sono chiamati anche causali o retrospettivi. Quando elabora una sequenza di input, il decoder considera solo gli input fino al token di input in questione incluso; il decoder non ha accesso agli input dei token successivi a quello in esame. Al contrario, un encoder bidirezionale, come quello adottato nel modello BERT, genera previsioni utilizzando tutti i token di input, quelli che precedono e seguono il valore mascherato.

Per fare un esempio, torniamo alla citazione di Otello sopra menzionata: "La colpa però è dei mariti, se le mogli tradiscono". Immaginate che, per qualche ragione, abbiamo questo intero testo tranne la parola mogli: "La colpa però è dei mariti, se le ________ tradiscono". Vogliamo determinare cosa colma questa lacuna. Questa figura illustra la differenza nel modo in cui entrambi i decoder elaborerebbero la nostra frase di esempio: