La IA multimodal se refiere a modelos de aprendizaje automático capaces de procesar e integrar información de múltiples modalidades o tipos de datos. Estas modalidades pueden incluir texto, imágenes, audio, vídeo y otras formas de información sensorial.
A diferencia de los modelos de IA tradicionales, que normalmente se diseñan para gestionar un solo tipo de datos, la IA multimodal combina y analiza diferentes entradas de datos para alcanzar una comprensión más completa y generar resultados más sólidos.
Por ejemplo, un modelo multimodal puede recibir una foto de un paisaje como entrada y generar un resumen escrito de las características de ese lugar. O bien, podría recibir un resumen escrito de un paisaje y generar una imagen basada en esa descripción. Esta capacidad de trabajar en múltiples modalidades confiere a estos modelos una enorme capacidad.
OpenAI lanzó ChatGPT en noviembre de 2022 y no tardó en poner la IA generativa en boca de todos. ChatGPT era una IA unimodal, diseñada para recibir entradas de texto y generar salidas de texto mediante el procesamiento del lenguaje natural (PLN).
La IA multimodal hace que la IA generativa sea más sólida y útil al permitir múltiples tipos de entradas y salidas. Dall-e, por ejemplo, fue la implementación multimodal inicial del modelo GPT de OpenAI, pero GPT-4o también introdujo capacidades multimodales en ChatGPT.
Los modelos de IA multimodal pueden combinar información de varias fuentes de datos y medios para proporcionar una comprensión más completa y matizada de los datos. Esto permite a la IA tomar decisiones mejor informadas y generar resultados más precisos.
Al aprovechar diferentes modalidades, los sistemas de IA multimodal pueden lograr una mayor precisión y solidez en tareas como el reconocimiento de imágenes, la traducción de idiomas y el reconocimiento del habla. La integración de distintos tipos de datos ayuda a captar más contexto y a reducir las ambigüedades. Los sistemas de IA multimodal son más resistentes al ruido y a la falta de datos. Si una modalidad no es fiable o no está disponible, el sistema puede confiar en otras modalidades para mantener el rendimiento.
La IA multimodal mejora la interacción humano-ordenador al posibilitar interfaces más naturales e intuitivas para mejorar la experiencia del usuario. Por ejemplo, los asistentes virtuales pueden entender y responder tanto a los comandos de voz como a las señales visuales, lo que hace que las interacciones sean más fluidas y eficientes.
Imagine un chatbot que pueda hablarle sobre sus gafas y hacerle recomendaciones de tallas basadas en una foto que comparta con él, o una aplicación de identificación de aves que pueda reconocer imágenes de un ave en particular y confirmar su identificación "escuchando" un fragmento de audio clip de su canto. La IA que puede operar en múltiples dimensiones sensoriales puede ofrecer a los usuarios resultados más significativos y más formas de interactuar con los datos.
La inteligencia artificial es un campo en rápida evolución en el que los últimos avances en algoritmos de entrenamiento para construir modelos fundacionales se están aplicando a la investigación multimodal. Esta disciplina fue testigo de innovaciones multimodales previas, como el reconocimiento de voz audiovisual y la indexación de contenido multimedia, que se habían desarrollado antes de que los avances en deep learning y ciencia de datos allanaran el camino para la IA generativa.
Hoy en día, los profesionales utilizan la IA multimodal en todo tipo de casos de uso, desde el análisis de imágenes médicas en el sector sanitario hasta el uso de la visión artificial junto con otra información sensoriales en vehículos autónomos con IA.
En un artículo de 2022 de Carnegie Mellon se destacan tres características de la IA multimodal: heterogeneidad, conexiones e interacciones.1 La heterogeneidad se refiere a las diversas cualidades, estructuras y representaciones de las modalidades. Una descripción textual de un evento será fundamentalmente diferente en calidad, estructura y representación de una fotografía del mismo evento.
Las conexiones se refieren a la información complementaria compartida entre diferentes modalidades. Estas conexiones pueden reflejarse en similitudes estadísticas o en correspondencia semántica. Por último, las interacciones se refieren a cómo interactúan las diferentes modalidades cuando se juntan.
El principal reto de ingeniería para la IA multimodal reside en integrar y procesar eficazmente diversos tipos de datos para crear modelos que puedan aprovechar los puntos fuertes de cada modalidad y superar al mismo tiempo sus limitaciones individuales. Los autores del artículo también plantean varios retos: representación, alineación, razonamiento, generación, transferencia y cuantificación.
La representación se refiere a cómo representar y resumir los datos multimodales para reflejar la heterogeneidad y las interconexiones entre las modalidades. Los profesionales utilizan redes neuronales especializadas (por ejemplo, CNN para imágenes y transformadores para texto) para extraer características, y emplean espacios de incrustación conjuntos o mecanismos de atención para el aprendizaje de la representación.
La alineación tiene como objetivo identificar conexiones e interacciones entre elementos. Por ejemplo, los ingenieros utilizan técnicas de alineación temporal en datos de vídeo y audio, y de alineación espacial para imágenes y texto.
El razonamiento tiene como objetivo componer el conocimiento a partir de evidencia multimodal, generalmente a través de múltiples pasos inferenciales.
La generación implica el aprendizaje de un proceso generativo para producir modalidades brutas que reflejen interacciones, estructura y coherencia intermodales.
La transferencia busca transferir conocimientos entre modalidades. Las técnicas avanzadas de aprendizaje por transferencia y los espacios de incrustación compartidos permiten transferir conocimientos entre modalidades.
La cuantificación implica estudios empíricos y teóricos para comprender el aprendizaje multimodal y evaluar mejor su rendimiento dentro de los modelos multimodales.
Los modelos multimodales añaden una capa de complejidad a los modelos de lenguaje de gran tamaño (LLM), que se basan en transformadores, construidos a su vez sobre una arquitectura de codificador-decodificador con un mecanismo de atención para procesar datos de manera eficiente. La IA multimodal utiliza técnicas de fusión de datos para integrar diferentes modalidades. Esta fusión puede describirse como temprana (cuando las modalidades se codifican en el modelo para crear un espacio de representación común), intermedia (cuando las modalidades se combinan en diferentes etapas de preprocesamiento) y tardía (cuando varios modelos procesan diferentes modalidades y combinan los resultados).
La IA multimodal es un campo en rápida evolución, con varias tendencias clave que dan forma a su desarrollo y aplicación. Estas son algunas de las más notables:
GPT-4 V(ision) de OpenAI, Gemini de Google y otros modelos unificados están diseñados para gestionar texto, imágenes y otros tipos de datos en una única arquitectura. Estos modelos comprenden y generan contenidos multimodales con facilidad.
Se están utilizando mecanismos de atención y transformadores avanzados para alinear y fusionar mejor los datos de diferentes formatos, lo que produce resultados más coherentes y contextualmente precisos.
Las aplicaciones de conducción autónoma y realidad aumentada, por ejemplo, requieren que la IA procese e integre datos de varios sensores (cámaras, LIDAR y más) en tiempo real para tomar decisiones instantáneas.
Los investigadores están generando datos sintéticos que combinan varias modalidades (por ejemplo, descripciones de texto con imágenes correspondientes) para aumentar los conjuntos de datos de entrenamiento y mejorar el rendimiento de los modelos.
Iniciativas como Hugging Face y Google AI proporcionan herramientas de IA de código abierto, fomentando un entorno colaborativo para que investigadores y desarrolladores avancen en este campo.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 https://arxiv.org/abs/2209.03430. 7 de septiembre de 2022.