La modellazione del linguaggio mascherato addestra i modelli a prevedere parole mancanti nel testo. Solitamente preaddestra i modelli per le attività NLP a valle.
I modelli linguistici mascherati (MLM) sono un tipo di modello linguistico di grandi dimensioni (LLM) utilizzato per aiutare a prevedere le parole mancanti nel testo nelle attività di elaborazione del linguaggio naturale (NLP). Per estensione, la modellazione del linguaggio mascherato è una forma di addestramento dei modelli di transformer (in particolare le rappresentazioni bidirezionali degli encoder from transformers (BERT) e il suo approccio BERT di pre-addestramento robustamente ottimizzato (RoBERTa)) per compiti NLP addestrando il modello a compilare parole mascherate all'interno di un testo, prevedendo così le parole più probabili e coerenti per completare il testo.1
La modellazione del linguaggio mascherato aiuta molte attività, dall'analisi del sentiment alla generazione di testo, addestrando un modello a comprendere la relazione contestuale tra le parole. Gli sviluppatori di ricerca utilizzano spesso la modellazione del linguaggio mascherato per creare modelli pre-addestrati che vengono sottoposti a un'ulteriore messa a punto supervisionata per le attività a valle, come la classificazione del testo o la traduzione automatica. I modelli linguistici mascherati sono quindi alla base di molti algoritmi di modellazione linguistica di ultima generazione. Sebbene la modellazione linguistica mascherata sia un metodo per pre-addestrare modelli linguistici, le fonti online a volte la definiscono un metodo di apprendimento per trasferimento. Ciò potrebbe non essere ingiustificato, poiché alcuni gruppi di ricerca hanno iniziato a implementare la modellazione del linguaggio mascherato come compito finale a sé stante.
I transformer HuggingFace e le librerie di testo Tensorflow contengono funzioni progettate per addestrare e testare modelli di linguaggio mascherati in Python, sia come attività finali che per attività a valle.
La procedura generale che caratterizza i modelli linguistici mascherati è piuttosto semplice. Essendo una forma di apprendimento non supervisionato, la modellazione del linguaggio mascherato inizia con un set di dati di testo ampio e non annotato. L'algoritmo sostituisce un campione casuale di parole da questo testo di input con token mascherati, che possono consistere nel token [MASK] o in altri token di parole del vocabolario del testo di input. Per ogni token mascherato, il modello prevede quindi quali token di parole hanno maggiori probabilità di essere apparsi nel testo di input originale. 2
Ad esempio, nella frase seguente dell'Otello di Shakespeare, due parole sono state sostituite con token mascherati mentre un'altra parola è stata sostituita da un token di parola completamente diverso:
Il modello addestrerà quindi un encoder bidirezionale per prevedere i token di input originali che sono stati mascherati. Come fa? Certo, per chiarire i meccanismi interni dei modelli linguistici mascherati è necessaria una base algebrica e di apprendimento automatico avanzata. Tuttavia, è possibile avere una panoramica sommaria.
Per ogni token di parola nei dati di input text, il modello genera embedding di parole simili a un modello bag of words. Il modello combina questi embedding di parole con codifiche posizionali per creare l'ingresso del trasformatore. Gli encoding posizionali, in breve, rappresentano la posizione di un dato token di parola in una sequenza usando un valore vettoriale univoco. Attraverso encoding posizionali (o embedding posizionali), il modello può catturare informazioni semantiche sulle parole attraverso le loro relazioni posizionali con altre parole.
Il modello del trasformatore utilizza quindi questi embedding di parole e posizioni per generare distribuzioni di probabilità sul vocabolario di input per ciascuno dei token mascherati. Le parole con la più alta probabilità prevista per ciascun token mascherato sono le rispettive previsioni del modello per il valore reale di ciascun token.3
La modellazione del linguaggio mascherato è una caratteristica del pre-addestramento del modello transformer BERT, infatti, i due sono stati introdotti insieme alla comunità di machine learning. Prima di BERT, i modelli linguistici erano unidirezionali. Questo significa che hanno imparato le rappresentazioni linguistiche considerando solo il testo che precede una data parola. L'approccio di BERT a un compito di modellazione linguistica mascherata, tuttavia, considera sia il testo precedente che quello successivo.4 La differenza principale tra gli approcci unidirezionali e bidirezionali dipende dal modo in cui lo strato di autoattenzione del trasformatore decodifica i valori di output.
Quando si prevede la parola successiva in una sequenza o, nel nostro caso, i valori mancanti, un modello unidirezionale considera solo quelle parole che precedono il valore mancante. I decoder di transformer che operano in questo modo sono chiamati anche causali o retrospettivi. Quando elabora una sequenza di input, il decoder considera solo gli input fino al token di input in questione incluso; il decoder non ha accesso agli input dei token successivi a quello in esame. Al contrario, un encoder bidirezionale, come quello adottato nel modello BERT, genera previsioni utilizzando tutti i token di input, quelli che precedono e seguono il valore mascherato.
Per fare un esempio, torniamo alla citazione di Otello sopra menzionata: "La colpa però è dei mariti, se le mogli tradiscono". Immaginate che, per qualche ragione, abbiamo questo intero testo tranne la parola mogli: "La colpa però è dei mariti, se le ________ tradiscono". Vogliamo determinare cosa colma questa lacuna. Questa figura illustra la differenza nel modo in cui entrambi i decoder elaborerebbero la nostra frase di esempio:
In questa figura, y indica l'output previsto per il token mascherato. Il transformer unidirezionale utilizza solo quegli input precedenti al token mascherato per prevedere il valore di quest'ultimo. Il trasformatore bidirezionale, invece, utilizza embedding posizionali da tutti gli input, sia quelli che precedono che quelli che seguono la maschera, per prevedere il valore del token.
Sviluppatori e ricercatori utilizzano modelli di linguaggio mascherato per potenziare numerose attività di NLP, come named entity recognition, la risposta alle domande e la classificazione del testo. Come in molti ambiti della NLP, la ricerca sulla modellazione linguistica mascherata si è spesso concentrata sulle lingue latine, principalmente sull'inglese. Più di recente, esperimenti pubblicati sviluppano e valutano set di dati di lingue non latine, come il giapponese e il russo, per la modellazione del linguaggio mascherato e per attività a valle . Inoltre, un gruppo di ricerca ha proposto un metodo debolmente supervisionato per il pre-addestramento di modelli linguistici mascherati multilingue. In particolare, introducono uno speciale token mascherato per emanare un pass di inoltro interlinguistico nel pretraining su set di dati multilingue. Il loro metodo mostra un netto miglioramento nella classificazione interlinguistica con modelli linguistici mascherati multilingue.7
Come detto, i ricercatori possono spesso utilizzare la modellazione del linguaggio mascherato come mezzo per migliorare le prestazioni del modello nei compiti NLP a valle. Tali attività includono:
Named entity recognition. Questo compito utilizza modelli e reti neurali per identificare categorie di oggetti predefinite nei testi, come nomi di persone, nomi di città e così via. Come per molti obiettivi di machine learning, la mancanza di dati adeguati si è rivelata un ostacolo nel named entity recognition. Per affrontare questo problema, i ricercatori hanno esplorato la modellazione del linguaggio mascherato come forma di augmentation dei dati per la Named Entity Recognition, con notevole successo.8
Analisi del sentiment. L'analisi del sentiment analizza e classifica i dati in positivi, negativi o neutrali. Viene spesso utilizzato per classificare grandi raccolte di recensioni online di clienti. Similmente alla named entity recognition, i ricercatori hanno esplorato la modellazione del linguaggio mascherato come tecnica di aumento dei dati per l'analisi del sentimento.9 Inoltre, la modellazione del linguaggio mascherato si dimostra promettente per l'adattamento del dominio nell'analisi del sentiment. La ricerca suggerisce in particolare che aiuta a concentrarsi sulla previsione di parole con pesi elevati per i compiti di classificazione del sentimento.10
Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 Daniel Jurafsky e James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3a edizione, 2023, https://web.stanford.edu/~jurafsky/slp3.
2 Lewis Tunstall, Leandro von Werra e Thomas Wolf, Natural Language Processing with Transformers, Revised Edition, O’Reilly Media, 2022.
3 Daniel Jurafsky, James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3a edizione, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3a edizione, Packt Publishing, 2024.
4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Estratti dalla Conference of the North American Chapter of the Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.
5 Daniel Jurafsky, James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3a edizione, 2023, https://web.stanford.edu/~jurafsky/slp3.
6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Estratti dalla Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Estratti dalla 28a International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.446.
7 Xi Ai, Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Estratti dalla 61a Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-long.49.
8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Estratti dalla 60a Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.
9 Larisa Kolesnichenko, Erik Velldal, Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.
10 Nikolay Arefyev, Dmitrii Kharchev, Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Estratti dalla Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.