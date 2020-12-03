Los modelos de lenguaje estiman la probabilidad de que aparezcan palabras en una oración, o de que la oración en sí exista. Como tales, son bloques de construcción útiles en muchas aplicaciones de NLP. Pero a menudo requieren una gran cantidad de datos de entrenamiento para ser útiles para tareas y dominios específicos.

Los modelos masivos de lenguaje de aprendizaje profundo están diseñados para abordar estos problemas generalizados de datos de entrenamiento. Se entrenan previamente con una enorme cantidad de datos sin anotar para proporcionar un modelo de aprendizaje profundo de propósito general. Al ajustar estos modelos preentrenados, los usuarios descendentes pueden crear modelos específicos de tareas con conjuntos de datos de entrenamiento anotados más pequeños (una técnica llamada aprendizaje de transferencia). Estos modelos representan un gran avance en el NLP: ahora se pueden lograr resultados de vanguardia con conjuntos de datos de entrenamiento más pequeños.

Hasta hace poco, la vanguardia de los modelos de lenguaje NLP eran los modelos RNN. Son útiles para tareas secuenciales como la síntesis abstractiva, la traducción automática y la generación general de lenguaje natural. Los modelos RNN procesan las palabras secuencialmente, en el orden en que aparecen en el contexto, una palabra a la vez. Como resultado, estos modelos son difíciles de paralelizar y deficientes para retener las relaciones contextuales en las entradas de texto largo. Como comentamos en una publicación anterior, en el PNL el contexto es clave.

El Transformer, un modelo presentado en 2017, evita estos problemas. Los transformadores (como BERT y GPT) utilizan un mecanismo de atención, que "presta atención" a las palabras más útiles para predecir la siguiente palabra en una oración. Con estos mecanismos de atención, los transformadores procesan una secuencia de entrada de palabras a la vez y asignan dependencias relevantes entre palabras, independientemente de cuán separadas aparezcan las palabras en el texto. Como resultado, los transformadores son altamente paralelizables, pueden entrenar modelos mucho más grandes a un ritmo más rápido y usar pistas contextuales para resolver muchos problemas de ambigüedad que plagan el texto.

Los transformadores individuales también tienen sus propias ventajas únicas. Hasta este año, BERT era el modelo de NLP de aprendizaje profundo más popular, logrando resultados de vanguardia en muchas tareas de NLP.

Entrenado con 2500 millones de palabras, su principal ventaja es el uso del aprendizaje bidireccional para obtener contexto de palabras tanto de izquierda a derecha como de derecha a izquierda simultáneamente, el enfoque de entrenamiento bidireccional de BERT está optimizado para predecir palabras enmascaradas (LM enmascarado) y supera el entrenamiento de izquierda a derecha después de un pequeño número de pasos previos al entrenamiento. Durante el proceso de entrenamiento del modelo, el entrenamiento de Next Sentence Prediction (NSP) permite al modelo comprender cómo se relacionan las oraciones entre sí, si la oración B debe preceder o seguir a la oración A. Como resultado, puede derivar más contexto. Por ejemplo, puede comprender los significados semánticos de banco en las siguientes oraciones: "Levanta los remos cuando llegues a la orilla del río" y "El banco está enviando una nueva tarjeta de débito". Para entender esto, utiliza pistas de río de izquierda a derecha y de tarjeta de débito de derecha a izquierda.

A diferencia de los modelos BERT, los modelos GPT son unidireccionales. La principal ventaja de los modelos GPT es el gran volumen de datos con los que se entrenaron previamente: GPT-3, el modelo GPT de tercera generación, se entrenó con 175 000 millones de parámetros, unas 10 veces el tamaño de los modelos anteriores. Este modelo preentrenado verdaderamente masivo significa que los usuarios pueden ajustar las tareas de NLP con muy pocos datos para realizar tareas novedosas. Si bien los transformadores en general han reducido la cantidad de datos necesarios para entrenar modelos, GPT-3 tiene la clara ventaja sobre BERT de que requiere muchos menos datos para entrenar modelos.

Por ejemplo, con tan solo 10 oraciones, se ha enseñado al modelo a escribir un ensayo sobre por qué los humanos no deben temer a la IA. (Aunque cabe señalar que la calidad variable de estos ensayos de formato libre muestra las limitaciones de la tecnología actual).