¿Qué son los modelos de lenguaje enmascarado?

Puente infinito en Stockton on Tees, Reino Unido.

El modelado de lenguaje enmascarado entrena a los modelos para predecir las palabras que faltan en el texto. Por lo general, entrena previamente los modelos para tareas de NLP posteriores.

Los modelos de lenguaje enmascarado (MLM) son un tipo de modelo de lenguaje grande (LLM) utilizado para ayudar a predecir palabras faltantes del texto en tareas de procesamiento del lenguaje natural (PNL). Por extensión, el modelado de lenguaje enmascarado es una forma de entrenar modelos transformadores—en particular, las representaciones de codificadores bidireccionales de transformadores (BERT) y su enfoque derivado de preentrenamiento BERT optimizado de forma robusta (RoBERTa)— para tareas de PLN, entrenando al modelo para que rellene las palabras enmascaradas dentro de un texto y, de ese modo, prediga las palabras más probables y coherentes para completar el texto.

El modelado de lenguaje enmascarado ayuda a muchas tareas, desde el análisis de sentimientos hasta la generación de texto, al entrenar un modelo para comprender la relación contextual entre las palabras. De hecho, los desarrolladores de investigación a menudo utilizan modelos de lenguaje enmascarado para crear modelos preentrenados que se someten a un ajuste adicional supervisado para tareas posteriores, como la clasificación de texto o la traducción automática. Los modelos de lenguaje enmascarados sustentan así muchos algoritmos de modelado de lenguaje de última generación actuales. Aunque el modelado de lenguaje enmascarado es un método para preentrenar modelos de lenguaje, las fuentes en línea a veces se refieren a él como un método de aprendizaje por transferencia. Esto podría no ser injustificado, ya que algunos grupos de investigación han comenzado a implementar el modelado de lenguaje enmascarado como una tarea final en sí misma.

Los transformadores HuggingFace y las bibliotecas de texto Tensorflow contienen funciones diseñadas para entrenar y probar modelos de lenguaje enmascarado en Python, tanto como tareas finales como para tareas posteriores.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Cómo funcionan los modelos de lenguaje enmascarado

El procedimiento general que caracteriza los modelos de lenguaje enmascarado es bastante sencillo. Al ser una forma de aprendizaje no supervisado, el modelado de lenguaje enmascarado comienza con un conjunto de datos de texto grande y sin anotaciones. El algoritmo reemplaza una muestra aleatoria de palabras de este texto de entrada con tokens enmascarados, que pueden consistir en el token [MASK] u otros tokens de palabras del vocabulario del texto de entrada. Para cada token enmascarado, el modelo predice qué tokens de palabras son los más probables que hayan aparecido en el texto original introducido.2

Por ejemplo, en la siguiente oración de Othello de Shakespeare, dos palabras se reemplazaron con tokens enmascarados, mientras que otra palabra se reemplazó con una palabra token completamente diferente:

Visualización del enmascaramiento de palabras en el ejemplo del pasaje de Othello

Luego, el modelo entrenará un codificador bidireccional para predecir los tokens de entrada que han sido enmascarados. ¿Cómo lo hace? Es cierto que dilucidar las maquinaciones internas de los modelos de lenguaje enmascarado requiere una base en álgebra avanzada y machine learning. No obstante, es posible hacer un breve resumen.

Para cada token de palabra en los datos de texto de entrada, el modelo genera incrustaciones de palabras similares a un modelo de bolsa de palabras. El modelo combina estas incorporaciones de palabras con codificaciones posicionales para crear la entrada del transformador. Las codificaciones posicionales, en resumen, representan la ubicación de un token de palabra determinado en una secuencia utilizando un valor vectorial único. A través de codificaciones posicionales (o incrustaciones posicionales), el modelo puede capturar información semántica sobre palabras a través de sus relaciones posicionales con otras palabras.

 

El modelo de transformadores emplea entonces estas incorporaciones de palabras y posiciones para generar distribuciones de probabilidad sobre la entrada para cada uno de los tokens enmascarados. Las palabras con la probabilidad predicha más alta para cada token enmascarado son las predicciones respectivas del modelo para el valor verdadero de cada token.3

 

Enfoques para la predicción de token enmascarado

El modelado de lenguaje enmascarado es un rasgo característico del entrenamiento previo del modelo de transformador BERT; de hecho, los dos se introdujeron juntos en la comunidad de machine learning. Antes de BERT, los modelos de lenguaje eran unidireccionales. Esto significa que aprendieron las representaciones del lenguaje considerando solo el texto que precede a una palabra determinada. Sin embargo, el enfoque de BERT para una tarea de modelado enmascarado de lenguaje considera tanto el texto anterior como el siguiente.4 La principal diferencia entre los enfoques unidireccionales y bidireccionales depende de cómo la capa de autoatención del transformador decodifica los valores de salida.

Al predecir la siguiente palabra en una secuencia, o en nuestro caso, la palabra que falta, un modelo unidireccional considera solo aquellas palabras que preceden al valor faltante. Los decodificadores de transformadores que funcionan de esta manera también se denominan causales o retrospectivos. Al procesar una secuencia de entrada, el decodificador solo considera esas entradas hasta el token de entrada en cuestión; el decodificador no tiene acceso a las entradas de token posteriores a la que se está considerando. En cambio, un codificador bidireccional, adoptado en el modelo BERT, genera predicciones usando todos los tokens de entrada, aquellos que preceden y siguen al valor enmascarado.5

Para ilustrar, volvamos a la cita de Othello antes mencionada: "Pero Think que es culpa de sus maridos si las esposas se caen". Imagine que, por alguna razón, tenemos todo este texto excepto la palabra esposas: "Pero Think que es culpa de sus maridos si ________ se cae". Queremos determinar qué llena este vacío. Esta figura ilustra la diferencia en cómo ambos decodificadores procesarían nuestra oración de ejemplo:

Visualización que compara cómo los diferentes codificadores procesan tokens

En esta figura, y significa el resultado previsto para el token enmascarado. El transformador unidireccional utiliza únicamente los valores de entrada que preceden al token enmascarado para predecir el valor de este último. Sin embargo, el transformador bidireccional utiliza incrustaciones posicionales de todos los valores de entrada, tanto los que preceden como los que siguen a la máscara, para predecir el valor del token enmascarado.

Investigación reciente

Los desarrolladores e investigadores utilizan modelos de lenguaje enmascarado para impulsar muchas tareas de NLP, como el reconocimiento de entidades nombradas, la respuesta a preguntas y la clasificación de textos. Al igual que con muchos dominios de NLP, la investigación de modelos de lenguaje enmascarado a menudo se ha centrado en idiomas latinos, y principalmente en inglés. Más recientemente, los experimentos publicados desarrollan y evalúan conjuntos de datos de lenguas no latinas, como el japonés y el ruso, para modelar lenguajes enmascarados y tareas descendentes.6 Además, un grupo de investigación propone un método poco supervisado para el entrenamiento previo de modelos de lenguaje enmascarado multilingües. Específicamente, introducen un token enmascarado especial para realizar un pase transversal en el preentrenamiento en conjuntos de datos multilingües. Su método muestra una notable mejora en la clasificación entre idiomas con modelos de lenguaje enmascarados multilingües.7

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Casos de uso

Como se mencionó, los investigadores suelen emplear el modelado de lenguaje enmascarado como medio para mejorar el rendimiento de los modelos en tareas posteriores de PLN. Tales tareas incluyen:

Named entity recognition. Esta tarea utiliza modelos y redes neuronales para identificar categorías de objetos predefinidas en textos, como nombres de personas, nombres de ciudades, etc. Como ocurre con muchos objetivos de machine learning, la falta de datos adecuados supuso un obstáculo para el named entity recognition. Para abordar esto, los investigadores han explorado el modelado de lenguaje enmascarado como una forma de aumento de datos para el reconocimiento de entidades nombradas con éxito notable.8

Análisis de sentimientos. El análisis de sentimientos analiza y clasifica los datos como positivos, negativos o neutros. A menudo se utiliza para clasificar grandes colecciones de comentarios de clientes en línea. Similar al reconocimiento de entidades nombradas, los investigadores han explorado el modelado de lenguaje enmascarado como una técnica de aumento de datos para el análisis de sentimientos.9 Además, el modelado de lenguaje enmascarado se muestra prometedor para la adaptación del dominio en el análisis de sentimiento. La investigación sugiere específicamente que ayuda a centrar en predecir palabras con grandes pesos para tareas de clasificación de sentimientos.10

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas de pie de página

1 Daniel Jurafsky y James Martin, Procesamiento del habla y del lenguaje: una introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla, 3.ª edición, 2023, https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall, Leandro von Werra y Thomas Wolf, Procesamiento del lenguaje natural con Transformers, Edición revisada, O'Reilly Media, 2022.

3 Daniel Jurafsky y James Martin, Procesamiento del habla y del lenguaje: una introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla, 3.ª edición, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3.ª edición, Packt Publishing, 2024.

4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidireccional Transformers for Language Understanding", Actas de la Conferencia de 2019 del Capítulo Norteamericano de la Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.

5 Daniel Jurafsky y James Martin, Procesamiento del habla y del lenguaje: una introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla, 3.ª edición, 2023, https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, and Naoaki Okazaki, "Sesgo de género en modelos de lenguaje enmascarados para varios idiomas", Actas de la conferencia 2022 del Capítulo Norteamericano de la Association for Computational Linguistics: Human Language Tecnología, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter y Hinrich Schütze, "Reducción monolingüe y multilingüe del sesgo de género en representaciones contextualizadas," Actas de la 28ª Conferencia Internacional de Lingüística Computacional, 2020, https://aclanthology.org/2020.coling-main.44 6.

7 Xi Ai y Bin Fang, " Enmascaramiento multilingüe sobre la marcha para la preformación multilingüe, " Actas de la 61a Reunión Anual de la Asociación de Lingüística Computacional, 2023, https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Actas de la 60.ª reunión anual de la Asociación para la Lingüística Computacional, 2022, https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev, Dmitrii Kharchev y Artem Shelmanov, "NB-MLM: Adaptación eficiente del dominio de modelos de lenguaje enmascarado para el análisis de sentimientos", Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural, 2021, https://aclanthology.org/2021.emnlp-main.717.