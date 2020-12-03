Los modelos de lenguaje estiman la probabilidad de que aparezcan palabras en una frase o de que exista la propia frase. Como tales, son componentes útiles en muchas aplicaciones de PLN. Pero a menudo requieren una cantidad enorme de datos de entrenamiento para ser útiles en tareas y dominios específicos.

Los modelos de lenguaje masivos de deep learning están diseñados para abordar estos problemas generalizados de datos de entrenamiento. Se preentrenan utilizando una enorme cantidad de datos no anotados para proporcionar un modelo de deep learning de propósito general. Al realizar el ajuste fino de estos modelos preentrenados, los usuarios intermedios pueden crear modelos específicos para cada tarea con conjuntos de datos de entrenamiento anotados más pequeños (una técnica llamada aprendizaje por transferencia). Estos modelos representan un gran avance en el PLN: ahora se pueden lograr resultados de última generación con conjuntos de datos de entrenamiento más pequeños.

Hasta hace poco, los modelos RNN eran lo último en modelos lingüísticos de PLN. Son útiles para tareas secuenciadas, como el resumen abstracto, la traducción automática y la generación de lenguaje natural en general. Los modelos RNN procesan las palabras secuencialmente, en el orden en que aparecen en el contexto, una palabra a la vez. Como resultado, estos modelos son difíciles de paralelizar y no conservan las relaciones contextuales entre las entradas de texto largas. Como hemos comentado en una publicación anterior, en el PLN el contexto es clave.

El Transformer, un modelo introducido en 2017, evita estos problemas. Los Transformer (como BERT y GPT) utilizan un mecanismo que “presta atención“ a las palabras más útiles para predecir la siguiente palabra de una frase. Con estos mecanismos de atención, los Transformer procesan una secuencia de palabras de entrada a la vez, y mapean las dependencias relevantes entre palabras independientemente de la distancia entre las que aparezcan en el texto. Como resultado, los Transformer son altamente paralelizables, pueden entrenar modelos mucho más grandes a un ritmo más rápido y utilizar pistas contextuales para resolver muchos problemas de ambigüedad que plagan el texto.

Los Transformer individuales también tienen sus propias ventajas únicas. Hasta este año, BERT era el modelo de PLN de deep learning más popular, logrando resultados de última generación en muchas tareas de PLN.

Entrenado con 2500 millones de palabras, su principal ventaja es el uso del aprendizaje bidireccional para obtener el contexto de las palabras tanto de izquierda a derecha como de derecha a izquierda simultáneamente. El enfoque de entrenamiento bidireccional de BERT está optimizado para predecir palabras enmascaradas (Masked LM) y supera al entrenamiento de izquierda a derecha tras un pequeño número de pasos de preentrenamiento. Durante el proceso de entrenamiento del modelo, el entrenamiento de Next Sentence Prediction (NSP) permite al modelo comprender cómo se relacionan las oraciones entre sí, si la oración B debe preceder o seguir a la oración A. Como resultado, puede derivar más contexto. Por ejemplo, puede entender los significados semánticos de “bank” en las siguientes frases: “Raise your oars when you get to the river bank” (Levante los remos cuando llegue a la orilla del río) and “The bank is sending a new debit card” (El banco va a enviar una nueva tarjeta de débito). Para entender esto, utiliza las pistas de “river” (de izquierda a derecha) y “debit card” (de derecha a izquierda).

A diferencia de los modelos BERT, los modelos GPT son unidireccionales. La principal ventaja de los modelos GPT es el gran volumen de datos con el que se preentrenaron: GPT-3, el modelo GPT de tercera generación, se entrenó con 175 mil millones de parámetros, unas 10 veces el tamaño de los modelos anteriores. Este modelo preentrenado verdaderamente masivo significa que los usuarios pueden afinar las tareas de PLN con muy pocos datos para realizar tareas novedosas. Aunque los Transformer en general han reducido la cantidad de datos necesarios para entrenar modelos, GPT-3 tiene la clara ventaja sobre BERT de que requiere muchos menos datos para entrenar modelos.

Por ejemplo, con tan solo 10 frases, se ha enseñado al modelo a escribir un ensayo sobre por qué los humanos no deberían tener miedo a la IA (aunque, cabe señalar, la calidad variable de estos ensayos de formato libre muestra las limitaciones de la tecnología actual).