Un modelo generativo es un modelo de machine learning diseñado para crear nuevos datos similares a sus datos de entrenamiento. Los modelos generativos de inteligencia artificial (IA) aprenden los patrones y distribuciones de los datos de entrenamiento y, a continuación, aplican esos conocimientos para generar contenidos novedosos en respuesta a los nuevos datos de entrada.
El acto de generar contenidos es lo que diferencia a los modelos de IA generativa de otros tipos de IA. Los modelos generativos son redes neuronales avanzadas que imitan la estructura del cerebro humano y aplican complejos algoritmos de machine learning para procesar datos de entrenamiento y fabricar outputs novedosos.
Los modelos de IA generativa y sus desarrolladores han impulsado principalmente el espíritu de la IA de los últimos años. Los modelos generativos continúan recibiendo la mayor parte de la cobertura de noticias relacionadas con la IA y captan una atención e inversión significativas.
La IA generativa es un tipo de IA que utiliza modelos sofisticados para generar nuevos contenidos en función de una instrucción. El modelo generativo es el programa informático que emplea datos y algoritmos para facilitar la práctica de la IA generativa. Los casos de uso de IA generativa incluyen el resumen de texto, a generación de texto y generación de imágenes, así como modelado 3D y la creación de audio.
Los modelos generativos identifican patrones y distribuciones en sus datos de entrenamiento y, a continuación, aplican esos hallazgos a la generación de nuevos datos basados en las entradas del usuario. El proceso de entrenamiento enseña al modelo a reconocer la distribución conjunta de probabilidad de las características en el conjunto de datos de entrenamiento. A continuación, el modelo se basa en lo aprendido para crear nuevas muestras de datos similares.
Los modelos generativos suelen entrenarse con técnicas de aprendizaje no supervisado: se les alimenta con una masa de datos sin etiquetar y aprenden a clasificarlos por sí mismo. Los modelos descubren la distribución de los datos, que es la forma en que cultivan la lógica interna que luego utilizan para crear nuevos datos.
Durante el entrenamiento, el modelo aplica una función de pérdida para medir la brecha entre los resultados del mundo real y las predicciones del modelo. El objetivo del entrenamiento es minimizar la función de pérdidas, acercar los outputs generados lo máximo posible a la realidad.
La generación de contenidos es un proceso probabilístico. Los modelos generativos no comprenden las cosas de la misma manera que los humanos. Más bien, un modelo generativo utiliza ecuaciones matemáticas complicadas para predecir el resultado más probable en función de las reglas que aprendió durante el entrenamiento.
Los modelos generativos intentan generar nuevos datos de una determinada clase. Los modelos discriminativos separan los elementos en grupos conocidos, mientras que los modelos de agrupación en clústeres descubren cómo agrupar los elementos de un conjunto de datos. Los modelos predictivos hacen estimaciones sobre sucesos o estados futuros basados en datos históricos.
Los modelos discriminativos se utilizan en tareas de aprendizaje supervisado en las que se conocen las etiquetas o categorías de los datos. Muchos modelos discriminativos son clasificadores que intentan identificar las relaciones entre características y etiquetas y luego asignan etiquetas de clase a nuevos datos en función de la probabilidad condicional de esas etiquetas.
Por ejemplo, un modelo discriminativo entrenado para diferenciar entre imágenes de peces y aves puede adivinar si es más probable que las imágenes sean de peces o de aves. El reconocimiento de imágenes, un tipo de clasificación en machine learning, es una aplicación común para los modelos discriminativos.
Aunque los modelos generativos y los modelos discriminativos cuentan con diferencias marcadas, a menudo funcionan juntos, como en una red generativa antagónica (GAN).
Los modelos de agrupación en clústeres se utilizan en tareas de aprendizaje no supervisado para agrupar registros dentro de un conjunto de datos en clústeres. Pueden identificar elementos similares y también aprender qué diferencia esos elementos de otros grupos en el conjunto de datos.
Los modelos de agrupación en clústeres no requieren conocer de antemano los elementos del conjunto de datos, incluida la cantidad de grupos que puede haber. Un investigador de mercado podría utilizar un modelo de agrupación para identificar a los compradores dentro de su público objetivo.
Los modelos predictivos procesan datos históricos para hacer predicciones sobre eventos futuros mediante el uso del machine learning y el análisis estadístico. A menudo se utilizan para ayudar a los líderes empresariales a tomar decisiones basadas en datos. Los modelos predictivos también impulsan los servicios de texto predictivo, el software de reconocimiento facial, la detección del fraude y las soluciones para la cadena de suministro.
Los modelos generativos reciben datos sin etiquetar durante el entrenamiento. Aplican ingeniería inversa a los criterios de categorización. Dada una etiqueta específica, ¿cuáles son las características que hacen que un punto de datos reciba esa etiqueta? Los modelos generativos quieren predecir las características de una etiqueta y luego utilizar esas características para generar nuevos ejemplos de esos datos.
Un modelo generativo entrenado para generar imágenes de animales puede intentar crear una imagen de un pez basándose en lo que cree que hace que un pez sea diferente de otros animales. La generación de imágenes es un caso de uso frecuente para los modelos generativos.
Existen muchos tipos de modelos generativos, cada uno con su propia arquitectura definitoria: la estructura del modelo que rige su funcionamiento. Los modelos generativos profundos son un subtipo de modelos generativos que utilizan estructuras de deep learning multicapa (redes neuronales profundas) para comprender relaciones complicadas y multifacéticas entre puntos de datos en un conjunto de datos.
Los modelos autorregresivos predicen el siguiente punto de datos de una secuencia a partir de instancias de datos anteriores. Los transformadores destacan en las tareas de procesamiento del lenguaje natural (PLN) debido a su mayor capacidad para procesar el contexto.
Los modelos de difusión crean nuevos datos añadiendo de forma gradual ruido a un conjunto de datos y, a continuación, averiguando cómo eliminar el ruido y obtener resultados novedosos.
Las redes generativas de confrontación (GAN) combinan un modelo discriminativo y generativo en una competición, con el objetivo de que el generador cree un resultado que engañe al discriminador.
Los autocodificadores variacionales (VAE) comprimen los datos de entrada con un codificador y, a continuación, invierten el proceso con un decodificador para crear nuevos datos similares.
Los modelos basados en flujos aprenden las relaciones entre distribuciones simples y complejas de datos mediante operaciones matemáticas reversibles.
Los modelos autorregresivos predicen el siguiente elemento de una secuencia basándose en elementos anteriores. Evalúan los componentes de la secuencia para determinar la correlación probabilística entre ellos y, a continuación, utilizan esa información para identificar un nuevo componente que probablemente iría a continuación.
La autorregresión es un tipo de regresión lineal, que es una técnica estadística que predice el valor de una variable en función de los valores de una o más variables. La autorregresión limita el enfoque a la variable objetivo, pero tiene en cuenta sus valores a lo largo del tiempo. La autorregresión también difiere de la regresión logística en que predice valores definidos, mientras que la última arroja un porcentaje de probabilidad de que ocurra un evento específico.
Los modelos autorregresivos adoptan la forma de redes neuronales recurrentes (RNN) o arquitecturas de transformadores.
Los modelos transformadores, que aparecieron por primera vez en 20171, superaron rápidamente a los RNN, que hasta entonces eran la principal forma de modelo autorregresivo. El transformador solucionó varios puntos débiles evidentes de la RNN. A los RNN les costaba captar las dependencias de largo alcance (relaciones entre los elementos de distancia de una secuencia) y eran ineficientes desde el punto de vista informático porque procesaban los elementos de forma secuencial, uno por uno.
Los transformadores introdujeron dos innovaciones que superaron a la arquitectura de los RNN y los convirtieron en el estándar de facto para los modelos de lenguaje de gran tamaño (LLM) en la IA generativa:
Procesamiento paralelo: los transformadores procesan todos los elementos de una secuencia de manera simultánea, lo que mejora la eficiencia con respecto a los RNN secuenciales. Los transformadores se pueden entrenar en mucho menos tiempo, especialmente con los conjuntos de datos a gran escala necesarios para el máximo rendimiento del LLM.
Mecanismos de autoatención: los transformadores pueden considerar la importancia relativa de todos los elementos de una secuencia al procesarlos. La autoatención permite a los transformadores capturar relaciones clave entre elementos distantes en una serie, lo que permite una comprensión contextual de la que carecían los RNN. La capacidad de procesar el contexto en grandes secuencias de entrada lleva a los transformadores a destacar en tareas de PLN como la generación de textos y la traducción de idiomas.
De los tres tipos de modelos transformadores (codificadores, descodificadores y codificadores-descodificadores), los dos últimos contienen componentes autorregresivos. Los descodificadores son el componente generativo y utilizan la autorregresión para generar tokens informadas por tokens generadas previamente.
Los modelos autorregresivos, especialmente los transformadores, se utilizan mucho hoy en día. Muchos de los principales modelos de IA son transformadores, incluidos GPT y GPT-4o de OpenAI, Claude de Anthropic, Llama de Meta, Gemini de Google y Granite de IBM .
Los casos de uso del modelo autorregresivo incluyen:
Procesamiento del lenguaje natural: los transformadores pueden procesar consultas complejas en lenguaje natural y responder de forma conversacional con la generación automatizada de texto, lo que los hace ideales para su uso como chatbots. Por ejemplo, ChatGPT es la implementación de chatbot de OpenAI de su modelo generativo GPT. Otras aplicaciones del PLN incluyen el análisis de sentimiento, el reconocimiento de voz, las aplicaciones de texto a voz (TTS) y el resumen de documentos.
Soporte de codificación: las mismas capacidades autorregresivas que permiten a los transformadores destacar en la generación de texto también les permiten depurar código y generar fragmentos de código.
Previsión de series temporales: la autorregresión puede aplicarse fácilmente a las previsiones de series temporales, en las que un modelo predice los valores futuros a partir de las tendencias anteriores. Las previsiones de series temporales se aplican con frecuencia al modelado financiero, las predicciones de mercado y las previsiones meteorológicas.
Aprendizaje por refuerzo: los transformadores han empezado a verse utilizados en el aprendizaje por refuerzo, una técnica de entrenamiento de machine learning que enseña a tomar decisiones autónomas. Los transformadores también se están aplicando a las tareas de clasificación.
Los modelos de difusión ofuscan o difunden de manera gradual los datos de entrada al añadir ruido, y luego refinan el desorden que crearon en datos nuevos y similares. Generan nuevos datos aprendiendo a refinar el ruido en datos similares a sus conjuntos de datos de entrenamiento. Los modelos de difusión funcionan a través de un proceso de tres etapas:
Paso 1 - Difusión: durante el entrenamiento, el modelo introduce gradualmente ruido en sus datos de entrada hasta que los datos ya no son reconocibles. El modelo añade una pequeña cantidad de ruido gaussiano a los datos en cada paso de un proceso matemático conocido como cadena de Markov.
Imagínese el proceso de difusión como un guitarrista que sube lentamente la perilla de ganancia de su amplificador hasta que el sonido de su guitarra se convierte en una pared de pura estática. Así es como los guitarristas de rock obtienen un sonido distorsionado en su música, aunque no suele llegar a este punto.
Paso 2 - Aprendizaje: el modelo rastrea la evolución de los datos ahora destruidos para comprender cómo se alteraron a través del proceso de ruido. Los modelos de difusión repiten este proceso en cada etapa del ruido.
Paso 3 - Difusión inversa: al entender cómo el ruido altera los datos, el modelo de difusión aprende a invertir el proceso de ruido y a reconstruir los datos de entrada. El objetivo de la difusión inversa es viajar hacia atrás a través de la cadena de Markov y eliminar el ruido gaussiano hasta que solo queden los datos puros. El guitarrista del paso 1 ha recibido una dura reprimenda por parte de sus compañeros de banda y está volviendo a bajar la amplificación hasta un nivel aceptable.
Los pasos 1 y 2 se aplican para entrenar modelos de difusión. Tras el entrenamiento, los modelos de difusión generan datos mediante la difusión inversa del ruido aleatorio para "encontrar" los datos solicitados por la instrucción del usuario.
Los modelos de difusión, que suelen utilizarse para la generación de imágenes, también tienen otros casos de uso destacados. Entre las aplicaciones de los modelos de difusión se incluyen las siguientes:
Generación de imágenes: los modelos de difusión impulsan las principales herramientas de generación y síntesis de imágenes, como Midjourney, Stable Diffusion y DALL-E 2 de OpenAI. Estos modelos generan imágenes en respuesta a las instrucciones del usuario. Los modelos de difusión pueden generar imágenes realistas de alta calidad, incluidas las de rostros humanos.
La Oficina de Derechos de Autor de los Estados Unidos dictaminó en 2023 que las imágenes generadas por IA no tienen derecho a la protección de los derechos de autor. Mientras tanto, numerosos pleitos en curso2 acabarán por determinar si las imágenes generadas por IA se consideran violaciones de los derechos de autor.
Inpainting y outpainting: inpainting es el proceso de añadir o eliminar contenido dentro de una imagen, mientras que outpainting expande una imagen más allá de sus bordes originales.
Modelado 3D: DreamFusion de Google y Magic3D de NVIDIA son modelos de difusión que crean modelos 3D a partir de entradas de texto.
Investigación de mercado: los modelos de difusión muestran cómo evolucionan las cosas con el tiempo, lo que los hace útiles para comprender cómo reaccionan los consumidores ante un producto.
Detección de anomalías: debido a que pueden aprender cómo cambian los datos con el tiempo, los modelos de difusión pueden identificar cuándo los puntos de datos no se ajustan a las tendencias establecidas. Las aplicaciones de detección de anomalías incluyen ciberseguridad, prevención del fraude y detección de enfermedades.
Introducidas en 2014, las redes generativas antagónicas (GAN) se encuentran entre los primeros tipos de modelos de IA que emparejan dos modelos en un concurso. Un modelo generativo crea outputs que un modelo discriminativo debe considerar auténticas o falsas. El objetivo de la competencia es que el generador genere contenido que pase por autenticidad cuando sea juzgado por el discriminador.
Si el generador es un falsificador de arte, el discriminador es un autenticador de arte. Un marchante de arte puede obtener una obra falsificada e intentar venderla a un museo, pero no antes de que la obra pase la autenticación. A medida que el falsificador aprende a imitar a los grandes maestros, el autenticador puede tener dificultades para detectar falsificaciones posteriores. En poco tiempo, el museo albergará una exposición llena de obras falsificadas.
El mismo proceso de entrenamiento que conduce a outputs realistas también puede provocar un colapso modal: cuando el generador omite algunos de sus datos de entrenamiento y se limita a un rango estrecho de tipos de muestra. Las GAN, así como los modelos de difusión y los transformadores, requieren conjuntos de datos de entrenamiento masivos para un rendimiento eficaz.
Ambas redes en una GAN suelen ser redes neuronales convolucionales (CNN), un primer tipo de red neuronal que destaca por su gran rendimiento en tareas de visión artificial.
Las GAN se utilizan principalmente en el campo de la visión artificial y en otras tareas relacionadas con los gráficos.
Visión artificial: consiste en el uso del machine learning para procesar información a partir de imágenes. Las tareas comunes de la visión artificial incluyen la detección y clasificación de objetos, el reconocimiento facial, la traducción del lenguaje de signos y el seguimiento de objetos.
Aumento de datos: el aumento de datos, el uso de datos preexistentes para crear más muestras de datos, puede aumentar aún más el rendimiento de la visión artificial con CNN. Este proceso difiere de los datos sintéticos en que se expande sobre datos reales, en lugar de generar algo desde cero.
Los autocodificadores variacionales (VAE) comprimen los datos de entrada y, a continuación, expanden o decodifican esa compresión para generar nuevos datos similares. Los VAE aprenden la distribución de un conjunto de datos de entrenamiento y aplican esas expectativas al generar nuevos datos a partir de muestras codificadas. Como todos los autocodificadores, los VAE constan de 2 componentes: un codificador y un decodificador.
El trabajo del codificador es aprender las variables latentes en un conjunto de datos. Las variables latentes no son directamente observables, pero desempeñan un papel importante en la distribución de datos. El espacio latente es el nombre colectivo de todas las variables latentes de un conjunto de datos. El codificador modela el espacio latente de forma que captura la información necesaria para reconstruir con precisión los datos. Todas las demás variables se omiten.
El decodificador toma la representación comprimida de los datos, conocida como cuello de botella, y la extrapola a la forma original de los datos. Un decodificador eficaz produce un output similar a los datos originales precomprimidos.
Los VAE tienen dificultades para generar imágenes en comparación con los modelos de difusión y las GAN, pero destacan en otras áreas.
Generación de imágenes: los VAE se utilizan en la generación de imágenes, aunque en las principales aplicaciones destinadas a este fin, los modelos de difusión los han sustituido ampliamente. En comparación con otros generadores de imágenes, los VAE tienden a producir imágenes más borrosas debido a que "promedian" el espacio latente.
Genómica: los VAE ayudan a los genetistas a calcular los valores de cría (el valor proyectado que un animal proporcionará con su descendencia), así como a asignar puntuaciones de riesgo de enfermedad.
Detección de anomalías: los VAE son más baratos y fáciles de entrenar que las GAN y los difusores, lo que los convierte en una opción atractiva para las tareas de detección de anomalías. Los datos recreados se comparan con los originales para aislar los casos que se desvían de la distribución proyectada.
Imputación de datos: los VAE pueden generar nuevos datos para sustituir los que faltan y restaurar archivos dañados. Algunos ejemplos son la limpieza de archivos de audio y la eliminación de ruido en vídeos, así como en imágenes médicas. Aunque los VAE tienden a generar imágenes borrosas desde cero, pueden restaurar imágenes borrosas preexistentes mediante la eliminación de ruido de la imagen.
Aprendizaje semisupervisado: los VAE ayudan a entrenar clasificadores al capturar distribuciones de datos en conjuntos de datos con etiquetado incompleto. También pueden aumentar los datos para generar muestras de entrenamiento adicionales para el clasificador.
Los modelos basados en flujos aprenden la distribución de datos a través de una serie de transformaciones matemáticas invertibles o reversibles. Los datos pueden avanzar sin pérdidas a través de esta canalización, conocida como flujo de normalización, en cualquier dirección. Mientras que los VAE y las GAN estiman las distribuciones de datos, los modelos basados en flujo aprenden explícitamente la función de densidad de probabilidad para el conjunto de datos.
En un conjunto de datos determinado, la función de densidad de probabilidad describe cómo se distribuyen los datos. Los flujos de normalización progresan de distribuciones simples a complejas hasta que se identifica la función de densidad de probabilidad de la variable objetivo.
Los modelos basados en flujos pueden generar nuevas muestras de datos que mantengan las mismas propiedades estadísticas del conjunto de datos inicial. Como todos los modelos generativos, el proceso se basa en el concepto de extraer muestras de los datos de entrenamiento y aplicar complejas matemáticas estadísticas para producir resultados similares y novedosos.
Los modelos basados en el flujo son ideales cuando es fundamental disponer de una evaluación precisa de la distribución de los datos.
Generación de imágenes: los modelos basados en flujos generan imágenes al hacer pasar ruido muestreado aleatoriamente por flujos de normalización para producir una imagen limpia. PixelCNN es un notable modelo de generación de imágenes de 2016 que aplica la autorregresión a la secuencia de transformaciones, y modela las imágenes píxel a píxel.
Estimación precisa de la densidad: la estimación de la densidad consiste en identificar la función de densidad de probabilidad de un conjunto de datos a partir de datos observables. Aunque los modelos basados en el flujo pueden representar con precisión distribuciones de datos complejas, tienen dificultades para captar las dependencias de largo alcance en comparación con los transformadores.
Generación de grafos moleculares: Los modelos basados en el flujo se han utilizado en la generación de grafos moleculares, en la que las nuevas estructuras moleculares se modelan como grafos mediante modelos de IA generativa. La generación de grafos moleculares es una herramienta importante para ayudar a científicos e ingenieros a descubrir nuevos fármacos y materiales.
Los mismos procesos que a menudo conducen a resultados impresionantes son también los que hacen que los modelos generativos alucinen: cuando generan información incorrecta o engañosa. Las alucinaciones o confabulaciones ocurren cuando los modelos perciben patrones en sus conjuntos de datos de entrenamiento que no existen en el mundo real.
Por ejemplo, al preguntarle a ChatGPT-4o mini “¿En qué episodio de Seinfeld va Kramer a Bangladesh?”, se obtuvo esta respuesta:
Kramer viaja a Bangladesh en el episodio titulado "El pequeño Jerry", que es el episodio 145 de Seinfeld. Es el episodio 145 [sic] del programa y se emitió originalmente durante la temporada 8. En este episodio, Kramer se involucra en un plan para importar un juguete de Bangladesh.
Aunque El pequeño Jerry es el episodio 145 de Seinfeld y se emitió durante la octava temporada, muestra a Kramer comprando y entrenando un gallo, el homónimo Little Jerry. Volver a hacer que el chatbot hiciera la misma pregunta provocó una segunda alucinación diferente:
Kramer va a Bangladesh en el episodio titulado "Las Maldivas", que es el episodio 18 de la temporada 9. En este episodio, intenta comenzar una nueva vida después de su viaje, y la historia gira en torno a la idea de que se convierta en un pescador "bangladesí".
En realidad, el episodio 18 de la novena temporada de Seinfeld es El ranas, y en él, Kramer solo llega hasta la comisaría de policía. No hay ningún episodio de Seinfeld llamado Las Maldivas, y en ningún momento de toda la serie Kramer va a Bangladesh.
Al igual que los modelos autorregresivos como GPT son conocidos por alucinar con hechos inventados, otros tipos de modelos pueden alucinar a sus respectivas maneras. Los modelos de difusión utilizados para la generación de imágenes a veces representan los objetos del mundo real de formas que no se ajustan a la realidad.
Aunque aún no es posible eliminar por completo la posibilidad de que los modelos de IA alucinen, las buenas prácticas para mitigar la alucinación incluyen:
Instrucciones claras: cuanto más explícita sea la instrucción del usuario, más precisa podrá ser la respuesta de la IA. Deje espacio a la IA para que responda con detalle.
Dirección enfocada: dar a una IA un papel claro e instruirla para que proporcione información veraz y verificable puede ayudar a garantizar que sus respuestas reflejen mejor la realidad.
Datos de alta calidad: cuanto más actuales y relevantes sean los datos de entrenamiento de un modelo de IA, menor será la posibilidad de que sus respuestas estén sesgadas.
Verificación humana: los resultados generados por la IA no deben utilizarse sin ser antes verificados por humanos expertos.
RAG y fine-tuning: el uso de RAG para aumentar una IA con datos creíbles y el ajuste fino de los modelos para que sean más específicos del dominio son eficaces para reducir las alucinaciones.
1. Attention Is All You Need. Vaswani et al. 2 de agosto de 2023.
2. Artists Score Major Win in Copyright Case Against AI Art Generators. Winston Cho. The Hollywood Reporter. 13 de agosto de 2024.
3. Diffusion-GAN: Training GANs with Diffusion. Wang et al. 25 de agosto de 2023.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.