Publicado: 22 de marzo de 2024
Colaboradores: Cole Stryker, Mark Scapicchio
La IA generativa, a veces llamada gen AI, es inteligencia artificial (IA) que puede crear contenido original, como texto, imágenes, video, audio o código de software, en respuesta a una instrucción o solicitud de un usuario.
La IA generativa se basa en sofisticados modelos de aprendizaje automático llamados modelos de aprendizaje profundo , algoritmos que simulan los procesos de aprendizaje y la toma de decisiones del cerebro humano. Estos modelos funcionan mediante la identificación y programación de los patrones y relaciones en grandes cantidades de datos, y luego usando esa información para comprender las solicitudes o preguntas del lenguaje natural de los usuarios y responder con nuevo contenido relevante.
La IA ha sido un tema candente en la tecnología durante la última década, pero la IA generativa, y en concreto la llegada de ChatGPT en 2022, ha llevado a la IA a los titulares de todo el mundo, y ha disparado un aumento en la innovación y adopción de la IA sin precedentes. La IA generativa ofrece enormes ventajas de productividad para las personas y las organizaciones; aunque también presenta retos y riesgos muy reales, las empresas están avanzando, explorando cómo la tecnología puede mejorar sus flujos de trabajo internos y enriquecer sus productos y servicios. Según un estudio de la consultoría de gestión McKinsey, un tercio de las organizaciones ya utilizan IA generativa de forma regular en al menos una función empresarial.¹ El analista del sector Gartner prevé que más del 80 % de las organizaciones habrán desplegado aplicaciones de IA generativa o utilizado interfaces de programación de aplicaciones (API) de IA generativa para 2026.2
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
Regístrese para obtener la guía sobre modelos fundacionales
En la mayoría de los casos, la IA generativa opera en tres fases:
La IA generativa comienza con un modelo fundacional, un modelo de aprendizaje profundo que sirve de base para múltiples tipos de aplicaciones de IA generativa. Los modelos fundacionales más comunes hoy en día son los modelos de lenguaje de gran tamaño (LLM), creados para aplicaciones de generación de texto, pero también hay modelos básicos para la generación de imágenes, videos, sonido y música, así como modelos fundacionales multimodales que pueden admitir varios tipos de generación de contenido.
Para crear un modelo fundacional, los profesionales entrenan un algoritmo de aprendizaje profundo en enormes volúmenes de datos en bruto, no estructurados y sin etiquetar; por ejemplo, terabytes de datos extraídos de Internet o de alguna otra fuente de datos de gran tamaño. Durante el entrenamiento, el algoritmo realiza y evalúa millones de ejercicios de "rellenar los espacios en blanco", intentando predecir el siguiente elemento de una secuencia; por ejemplo, la siguiente palabra de una frase, el siguiente elemento de una imagen, el siguiente comando de una línea de código, y ajustándose continuamente para minimizar la diferencia entre sus predicciones y los datos reales (o resultado "correcto").
El resultado de este entrenamiento es una red neuronal de parámetros (representaciones codificadas de las entidades, patrones y relaciones en los datos) que pueden generar contenido de forma autónoma en respuesta a entradas o instrucciones.
Este proceso de entrenamiento requiere un uso intensivo de recursos informáticos, consume mucho tiempo y es costoso: requiere miles de unidades de procesamiento de gráficos (GPU) agrupadas y semanas de procesamiento; además, todo esto cuesta millones de dólares. Los proyectos de modelos fundacionales de código abierto, como Llama-2 de Meta, permiten a los desarrolladores de IA generativa evitar este paso y sus costos.
Metafóricamente hablando, un modelo fundacional es generalista: sabe mucho sobre muchos tipos de contenido, pero a menudo no puede generar tipos específicos de resultados con la precisión o fidelidad deseadas. Para ello, el modelo debe ajustarse a una tarea específica de generación de contenido. Esto se puede hacer de varias maneras.
El ajuste implica alimentar el modelo con datos etiquetados específicos de la aplicación de generación de contenido: preguntas o instrucciones que es probable que reciba la aplicación y las respuestas correctas correspondientes en el formato deseado. Por ejemplo, si un equipo de desarrollo intenta crear un chatbot de atención al cliente, crearía cientos o miles de documentos que contienen preguntas de atención al cliente etiquetadas y respuestas correctas; posteriormente, alimentaría el modelo con esos documentos.
El ajuste fino requiere mucha mano de obra. Los desarrolladores a menudo subcontratan la tarea a empresas con grandes fuerzas laborales de etiquetado de datos.
En las RLHF, los usuarios humanos responden al contenido generado con evaluaciones que el modelo puede utilizar para actualizar el modelo para una mayor precisión o relevancia. A menudo, en las RLHF hay personas que "asignan una calificación" a diferentes resultados en respuesta a la misma pregunta. Pero puede ser tan sencillo como hacer que la gente escriba o responda a un chatbot o asistente virtual, corrigiendo sus resultados.
Los desarrolladores y usuarios evalúan continuamente los resultados de sus aplicaciones de IA generativa y ajustan adicionalmente el modelo, incluso una vez a la semana, para aumentar su precisión o relevancia. (En cambio, el propio modelo fundacional se actualiza con mucha menos frecuencia, quizá cada año o cada 18 meses.)
Otra opción para mejorar el rendimiento de una aplicación de IA generativa es la generación aumentada de recuperación (RAG). La RAG consiste en un marco para ampliar el modelo fundacional y utilizar fuentes relevantes fuera de los datos de entrenamiento, para complementar y ajustar los parámetros o representaciones en el modelo original. La RAG puede garantizar que una aplicación de IA generativa siempre tenga acceso a la información más actualizada. Como beneficio adicional, las fuentes adicionales a las que se accede a través de RAG son transparentes para los usuarios, lo que no ocurre con los conocimientos del modelo fundacional original.
Los modelos de IA realmente generativa (modelos de aprendizaje profundo que pueden crear contenido bajo demanda de forma autónoma) han evolucionado en los últimos doce años aproximadamente. Entre las arquitecturas de modelos que han marcado un hito durante ese periodo se encuentran:
Autocodificadores variacionales (VAE), que impulsaron avances en el reconocimiento de imágenes, el procesamiento del lenguaje natural y la detección de anomalías.
Redes generativas adversativas (GAN) y modelos de difusión, que mejoraron la precisión de las aplicaciones anteriores y habilitaron algunas de las primeras soluciones de IA para la generación de imágenes fotorrealistas.
Transformadores, la arquitectura de modelos de aprendizaje profundo que está detrás de los modelos fundacionales y las soluciones de IA generativa más importantes de la actualidad.
Un autocodificador es un modelo de aprendizaje profundo que se compone de dos redes neuronales conectadas: una que codifica (o comprime) una gran cantidad de datos de capacitación no estructurados y no etiquetados en parámetros y otra que decodifica esos parámetros para reconstruir el contenido. Técnicamente, los autocodificadores pueden generar contenido nuevo, pero son más útiles para comprimir datos para su almacenamiento o transferencia, y descomprimirlos para su uso, que para la generación de contenido de alta calidad.
Presentados en 2013, los autocodificadores variacionales (VAE) pueden codificar datos como un autocodificador, pero descodifican múltiples variaciones nuevas del contenido. Al entrenar a una VAE para que genere variaciones hacia un objetivo concreto, puede "concentrarse" en contenidos más precisos y de mayor fidelidad a lo largo del tiempo. Las primeras aplicaciones de VAE incluían la detección de anomalías (por ejemplo, análisis de imágenes médicas) y la generación de lenguaje natural.
Las GAN, presentadas en 2014, también están compuestas por dos redes neuronales: un generador, que genera nuevo contenido, y un discriminador, que evalúa la precisión y calidad de los datos generados. Estos algoritmos contradictorios incentivan al modelo a generar resultados de calidad cada vez mayor.
Las GAN se utilizan normalmente para la generación de imágenes y videos, pero pueden generar contenido realista y de alta calidad en varios dominios. Han demostrado ser especialmente eficaces en tareas como la transferencia de estilo (alterar el estilo de una imagen, por ejemplo, de una foto a un boceto a lápiz) y el aumento de datos (crear datos nuevos y sintéticos para aumentar el tamaño y la diversidad de un conjunto de datos de entrenamiento).
También presentados en 2014, los modelos de difusión funcionan agregando ruido a los datos de entrenamiento hasta que sean aleatorios e irreconocibles, y luego entrenan el algoritmo para difundir iterativamente el ruido y revelar un resultado deseado.
Los modelos de difusión tardan más tiempo en entrenarse que los VAE o GAN, pero en última instancia ofrecen un control más detallado sobre el resultado, especialmente para herramientas de generación de imágenes de alta calidad. DALL-E, la herramienta de generación de imágenes de Open AI, está impulsada por un modelo de difusión.
Documentado por primera vez en un artículo de 2017 publicado por Ashish Vaswani y otros, los transformadores evolucionan el paradigma codificador-decodificador para dar un gran paso adelante en la forma en que se entrenan los modelos fundacionales y en la calidad y variedad de contenido que pueden producir. Estos modelos son el núcleo de la mayoría de las herramientas de IA generativa que ocupan los titulares en la actualidad, incluidas ChatGPT y GPT-4, Copilot, BERT, Bard y Midjourney, por nombrar algunas.
Los transformadores utilizan un concepto llamado atención (determinar y enfocarse en lo que es más importante sobre los datos dentro de una secuencia) para
procesar secuencias completas de datos (por ejemplo, oraciones en lugar de palabras individuales) simultáneamente;
capturar el contexto de los datos dentro de la secuencia;
codificar los datos de entrenamiento en incorporaciones (también llamadas hiperparámetros) que representan los datos y su contexto.
Además de permitir un entrenamiento más rápido, los transformadores sobresalen en el procesamiento de lenguaje natural (PLN) y la comprensión del lenguaje natural (CLN)), y pueden generar secuencias de datos más largas; por ejemplo, no solo respuestas a preguntas, sino poemas, artículos o documentos, con mayor precisión y mayor calidad que otros modelos de IA generativa profunda. Los modelos de transformadores también se pueden entrenar o ajustar para usar herramientas; por ejemplo, una aplicación de hoja de cálculo, HTML o un programa de dibujo, para generar contenido en un formato determinado.
La IA generativa puede crear muchos tipos de contenido en muchos dominios diferentes.
Los modelos generativos, especialmente aquellos basados en transformadores, pueden generar texto coherente y relevante para el contexto, desde instrucciones y documentación hasta folletos, correos electrónicos, textos para sitios web, blogs, artículos, informes, documentos e incluso escritura creativa. También pueden realizar tareas de escritura repetitivas o tediosas (redactar resúmenes de documentos o metadescripciones de páginas web), dejando tiempo a los redactores para trabajos más creativos y de mayor valor.
La generación de imágenes, como DALL-E, Midjourney y Stable Diffusion, puede crear imágenes realistas o arte original; también puede realizar transferencia de estilo, traducción de imagen a imagen y otras tareas de edición de imágenes o mejora de imágenes. Las herramientas de video de IA generativa emergente pueden crear animaciones a partir de indicaciones de texto, y pueden aplicar efectos especiales al video existente de manera más rápida y rentable que otros métodos.
Los modelos generativos pueden sintetizar voz y contenido de audio de sonido natural para usarlos en chatbots de IA habilitados por voz y asistentes digitales, narración de audiolibros y otras aplicaciones. La misma tecnología puede generar música original que imita la estructura y el sonido de las composiciones hechas por profesionales.
La IA generativa puede generar código original, autocompletar fragmentos de código, traducir entre lenguajes de programación y resumir la funcionalidad del código. Permite a los desarrolladores crear prototipos, refactorizar y eliminar errores en aplicaciones rápidamente, al tiempo que ofrece una interfaz de lenguaje natural para tareas de programación.
Los modelos de IA generativa pueden generar obras de arte y diseño únicos, así como ayudar en el diseño gráfico. Las aplicaciones incluyen la generación dinámica de entornos, personajes o avatares, además de efectos especiales para simulaciones virtuales y videojuegos.
Los modelos de IA generativa pueden entrenarse para generar datos sintéticos o estructuras sintéticas basadas en datos reales o sintéticos. Por ejemplo, la IA generativa se aplica en el descubrimiento de fármacos para generar estructuras moleculares con las propiedades deseadas, lo que ayuda al diseño de nuevos compuestos farmacéuticos.
El beneficio obvio y general de la IA generativa es una mayor eficiencia. Debido a que puede generar contenido y respuestas bajo demanda, la IA generativa tiene el potencial de acelerar o automatizar tareas intensivas en mano de obra, reducir costos y liberar tiempo a los empleados para trabajos de mayor valor.
Pero la IA generativa ofrece varios otros beneficios para personas y organizaciones.
Las herramientas de generación de inteligencia artificial pueden inspirar creatividad a través de una lluvia de ideas automatizada, dando lugar a múltiples versiones novedosas de contenido. Estas variaciones también pueden servir como puntos de partida o referencias que ayuden a escritores, artistas, diseñadores y otros creadores a superar los bloqueos creativos.
La IA generativa destaca en el análisis de grandes conjuntos de datos, la identificación de patrones y la extracción de insights significativos, y luego en la generación de hipótesis y recomendaciones basadas en esos conocimientos para apoyar a ejecutivos, analistas, investigadores y otros profesionales en la toma de decisiones más inteligentes y basadas en datos.
En aplicaciones como los sistemas de recomendación y la creación de contenido, la IA generativa puede analizar las preferencias y el historial del usuario y generar contenido personalizado en tiempo real, lo que lleva a una experiencia de usuario más personalizada y atractiva.
La IA generativa opera continuamente sin fatiga, proporcionando disponibilidad las 24 horas para tareas como chatbots de atención al cliente y respuestas automatizadas.
Los siguientes son solo algunos de los casos de uso de la IA para las empresas. A medida que la tecnología se desarrolle y las organizaciones incorporen estas herramientas a sus flujos de trabajo, podemos esperar ver muchas más.
Las organizaciones de marketing pueden ahorrar tiempo y ampliar su producción de contenido mediante el uso de herramientas de IA generativa para redactar textos para blogs, páginas web, material publicitario, correos electrónicos y más. Pero las soluciones de IA generativa también pueden crear textos e imágenes de marketing muy personalizados en tiempo real en función de cuándo, dónde y a quién se entrega el anuncio. Y potenciará chatbots y agentes virtuales de próxima generación que pueden dar respuestas personalizadas e incluso iniciar acciones en nombre del cliente, un avance significativo en comparación con la generación anterior de modelos de IA conversacional entrenados con datos más limitados para tareas muy específicas.
Las herramientas de generación de código pueden automatizar y acelerar el proceso de escritura de código nuevo. La generación de código también tiene el potencial de acelerar drásticamente la modernización de aplicaciones automatizando gran parte de la programación repetitiva necesaria para modernizar las aplicaciones heredadas para entornos de nube híbrida.
La IA generativa puede redactar o revisar rápidamente contratos, facturas, recibos y otros "trámites" digitales o físicos para que los empleados que la usan o gestionan puedan concentrarse en tareas de nivel superior. Esto puede acelerar los flujos de trabajo en prácticamente todas las áreas empresariales, incluidos recursos humanos, asuntos legales, adquisiciones y finanzas.
Los modelos de IA generativa pueden ayudar a los científicos e ingenieros a proponer soluciones novedosas a problemas complejos. Por ejemplo, en la atención médica, los modelos generativos se pueden aplicar para sintetizar imágenes médicas para entrenar y probar sistemas de imágenes médicas.
La IA generativa ha logrado avances notables en un periodo relativamente corto, pero aún representa retos y riesgos importantes para los desarrolladores, los usuarios y el público en general. A continuación, se detallan algunos de los problemas más graves y cómo se están enfrentando.
Una alucinación de IA es un resultado de IA generativa que no tiene sentido o es totalmente inexacta, pero, con demasiada frecuencia, parece completamente plausible. El ejemplo clásico es cuando un abogado utilizó una herramienta de IA generativa para la investigación en preparación para un caso de alto perfil, y la herramienta "produjo" varios casos de ejemplo, completos con citas y atribuciones, que eran completamente ficticios (enlace externo a ibm.com ).
Algunos profesionales ven las alucinaciones como una consecuencia inevitable en el equilibrio de la precisión de un modelo y sus capacidades creativas. Pero los desarrolladores pueden implementar medidas preventivas, llamadas medidas de seguridad, que restringen el modelo a fuentes de datos relevantes o confiables. La evaluación y el ajuste continuos también pueden ayudar a reducir las alucinaciones y las imprecisiones.
Debido a la naturaleza variacional o probabilística de los modelos de IA generativa, las mismas entradas pueden dar lugar a resultados un poco o muy diferentes. Esto puede ser indeseable en ciertas aplicaciones, como los chatbots de atención al cliente, donde se esperan o desean resultados coherentes. A través de la ingeniería rápida, al ajustar o redactar de forma iterativa las instrucciones, los usuarios pueden llegar a instrucciones que ofrezcan de forma coherente los resultados que desean de sus aplicaciones de IA generativa.
Los modelos generativos pueden aprender los sesgos sociales presentes en los datos de entrenamiento, o en los datos etiquetados, las fuentes de datos externas o los evaluadores humanos utilizados para ajustar el modelo, y generar contenido sesgado, injusto u ofensivo como resultado. Para evitar resultados sesgados de sus modelos, los desarrolladores deben garantizar que los datos de entrenamiento sean diversos, establecer pautas para evitar sesgos durante el entrenamiento y el ajuste, así como evaluar continuamente los resultados del modelo para determinar el sesgo y la precisión.
Muchos modelos de IA generativa son modelos de "caja negra", lo que significa que puede ser desafiante o imposible entender sus procesos de toma de decisiones; incluso los ingenieros o científicos de datos que crean el algoritmo subyacente pueden entender o explicar qué es exactamente lo que está sucediendo dentro de este y cómo llega a un resultado específico. Las prácticas y técnicas explicables de IA pueden ayudar a los profesionales y usuarios a comprender y confiar en los procesos y resultados de los modelos generativos.
La evaluación y comparación de la calidad del contenido generado también puede ser un reto. Es posible que las métricas de evaluación tradicionales no capturen los aspectos matizados de la creatividad, la coherencia o la relevancia. El desarrollo de métodos de evaluación sólidos y confiables para la IA generativa sigue siendo un área activa de investigación.
Los modelos de IA generativa pueden aprovecharse para generar correos electrónicos de phishing convincentes, identidades falsas u otro contenido malicioso que pueda engañar a los usuarios para que tomen medidas que comprometan la seguridad y la privacidad de los datos. Los desarrolladores y usuarios deben tener cuidado de que los datos ingresados en el modelo (durante el ajuste o como parte de una instrucción) no expongan su propia propiedad intelectual (IP) o cualquier información protegida como IP por otras organizaciones. Y necesitan monitorear los resultados en busca de contenido nuevo que exponga su propia IP o viole las protecciones de IP de otros.
Los deepfakes son imágenes, videos o audio generados o manipulados por IA y creados para convencer a las personas de que están viendo, mirando o escuchando a alguien hacer o decir algo que nunca hizo o dijo. Se encuentran entre los ejemplos más escalofriantes de cómo el poder de la IA generativa puede aplicarse con intenciones maliciosas.
La mayoría de las personas están familiarizadas con los deepfakes creados para dañar la reputación o difundir información errónea. Más recientemente, los delincuentes cibernéticos han desplegado deepfakes como parte de ataques cibernéticos (por ejemplo, voces falsas en estafas de phishing de voz) o esquemas de fraude financiero.
Los investigadores están trabajando arduamente en modelos de IA que puedan detectar deepfakes con mayor precisión. Mientras tanto, la educación de los usuarios y las mejores prácticas (por ejemplo, no compartir material polémico no verificado o no contrastado) pueden ayudar a limitar el daño que pueden causar los deepfakes.
El término “IA generativa” explotó en la conciencia pública en la década de 2020, pero la IA generativa ha sido parte de nuestras vidas durante décadas, y la tecnología de IA generativa de hoy se basa en los avances del aprendizaje automático desde principios del siglo XX. Una historia representativa no exhaustiva de la IA generativa podría incluir algunas de las siguientes fechas:
Año 1964: El científico informático del MIT Joseph Weizenbaum desarrolla ELIZA, una aplicación de procesamiento de lenguaje natural basada en texto. ELIZA, el primer chatbot (entonces denominado "chatterbot"), utilizaba secuencias de comandos de concordancia de patrones para responder a entradas de lenguaje natural con respuestas de texto empáticas.
1999: Nvidia envía GeoForce, la primera unidad de procesamiento gráfico. Originalmente desarrolladas para ofrecer gráficos en movimiento fluido para videojuegos, las GPU se habían convertido en la plataforma de facto para desarrollar modelos de IA y minería de criptomonedas.
2004: aparece por primera vez el autocompletado de Google, que genera posibles siguientes palabras o frases a medida que los usuarios ingresan sus términos de búsqueda. El ejemplo relativamente moderno de IA generativa se basa en la Cadena de Markov, un modelo matemático desarrollado en 1906.
2013: Aparecen los primeros autocodificadores variacionales (VAE).
2014: Aparecen las primeras redes generativas adversariales (GAN) y modelos de difusión.
2017: Ashish Vaswani, un equipo de Google Brain, y un grupo de la Universidad de Toronto publican "Attention is All You Need", un documento sobre los principios de los modelos transformadores, ampliamente reconocidos por habilitar los modelos fundacionales más potentes y las herramientas de IA generativa que se están desarrollando en la actualidad.
2019-2020: OpenAI lanza sus modelos de lenguaje grande GPT (Generative Pretrained Transformer), GPT-2 y GPT-3.
2022: OpenAI presenta ChatGPT, un frontend para GPT-3 que genera oraciones complejas, coherentes y contextuales y contenido de formato largo en respuesta a las indicaciones del usuario final.
Con la notoriedad y popularidad de ChatGPT, que abrió las compuertas, los desarrollos de IA generativa y los lanzamientos de productos se han producido a un ritmo vertiginoso, incluidos los lanzamientos de Google Bard (ahora Gemini), Microsoft Copilot, IBM watsonx.ai, y el modelo de lenguaje de gran tamaño y de código abierto Llama-2 de Meta.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad, y cree aplicaciones de IA en una fracción del tiempo con un fragmento de los datos. IBM watsonx.ai reúne nuevas capacidades de IA generativa, impulsadas por modelos fundacionales y aprendizaje automático tradicional en un estudio que abarca el ciclo de vida de la IA.
Ofrezca experiencias excepcionales a los clientes en cada interacción, a los agentes de centros de atención telefónica que necesitan asistencia e incluso a los empleados que necesitan información. Escale las respuestas en lenguaje natural con base en el contenido empresarial para impulsar interacciones orientadas a los resultados y respuestas rápidas y precisas.
Construya el futuro de su empresa con soluciones de IA en las que puede confiar. Con una experiencia inigualable en la resolución de los retos empresariales más complejos del mundo, IBM puede ayudarle, esté donde esté en su travesía hacia la IA.
Nuestra nueva experiencia educativa insignia de IA empresarial, AI Academy, ayuda a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.
Nuestra investigación basada en datos identifica cómo las empresas pueden localizar y explotar las oportunidades en el campo de la IA en constante evolución y expansión.
Cómo los CEO pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Elegir el modelo incorrecto puede afectar gravemente a su negocio. Aprenda a dimensionar el modelo más adecuado para su caso de uso.
El aprendizaje profundo permite a los sistemas agrupar datos y hacer predicciones con una precisión increíble.
1 The state of AI in 2023: Generative AI's breakout year (enlace externo a ibm.com), McKinsey, 1 de agosto de 2023
2 Gartner afirma que más del 80 % de las empresas habrán utilizado API de IA generativa o desplegado aplicaciones generativas habilitadas para IA para 2026 (el enlace reside fuera de ibm.com), Gartner, 11 de octubre de 2023