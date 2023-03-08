Como su nombre indica, la IA generativa genera imágenes, música, voz, código, vídeo o texto, al tiempo que interpreta y manipula datos preexistentes. La IA generativa no es un concepto nuevo: las técnicas de machine learning detrás de la IA generativa han evolucionado en la última década. El último enfoque se basa en una arquitectura de Neural Networks, denominada "transformadores". Combinando la arquitectura del transformador con aprendizaje no supervisado, surgieron grandes modelos fundacionales que superan las referencias existentes capaces de manejar múltiples modalidades de datos.

Estos grandes modelos se denominan modelos fundacionales, ya que sirven como punto de partida para el desarrollo de modelos más avanzados y complejos. Al construir sobre un modelo fundacional, podemos crear modelos más especializados y sofisticados adaptados a casos de uso o dominios específicos. Los primeros ejemplos de modelos, como GPT-3, BERT, T5 o DALL-E, han demostrado lo que es posible: entrada una breve instrucción y el sistema genera un ensayo completo, o una imagen compleja, en función de sus parámetros.

Grandes modelos lingüísticos (LLM) se entrenan específicamente con grandes cantidades de datos de texto para tareas de PLN y contienen un número significativo de parámetros, generalmente superiores a 100 millones. Facilitan el procesamiento y la generación de texto en lenguaje natural para diversas tareas. Cada modelo tiene sus fortalezas y debilidades, y la elección de uno u otro dependerá de la tarea específica de PLN y las características de los datos a analizar. Elegir el LLM correcto para un trabajo específico requiere experiencia en LLM.

BERT está diseñado para comprender las relaciones bidireccionales entre las palabras de una oración y se utiliza principalmente para la clasificación de tareas, la respuesta a preguntas y el reconocimiento de entidades nombradas. GPT, por otro lado, es un modelo unidireccional basado en transformadores que se utiliza principalmente para tareas de generación de texto, como traducción de idiomas, resumen y creación de contenido. T5 también es un modelo basado en transformadores, sin embargo, se diferencia de BERT y GPT en que se entrena utilizando un enfoque de texto a texto y se puede ajustar para diversas tareas de procesamiento del lenguaje natural, como la traducción de idiomas, el resumen y la respuesta. a las preguntas.