Fecha de publicación: 15 de julio de 2024
Colaboradores: Cole Stryker
La IA multimodal se refiere a modelos de aprendizaje automático capaces de procesar e integrar información de múltiples modalidades o tipos de datos. Estas modalidades pueden incluir texto, imágenes, audio, video y otras formas de entradas sensoriales.
A diferencia de los modelos tradicionales de IA que suelen estar diseñados para manejar un solo tipo de datos, la IA multimodal combina y analiza diferentes formas de entradas de datos para lograr una comprensión más completa y generar resultados más estables.
Por ejemplo, un modelo multimodal puede recibir una foto de un paisaje como entrada y generar un resumen escrito de las características de ese lugar. O bien, podría recibir un resumen escrito de un paisaje y generar una imagen basada en esa descripción. Esta capacidad de trabajar en múltiples modalidades dota a estos modelos de poderosas capacidades.
OpenAI lanzó ChatGPT en noviembre de 2022, lo que rápidamente puso la IA generativa en el mapa. ChatGPT era una IA unimodal, diseñada para recibir entradas de texto y generar salidas de texto mediante el procesamiento de lenguaje natural (PLN).
La IA multimodal hace que la IA generativa sea más sólida y útil al permitir varios tipos de entradas y salidas. Dall-e, por ejemplo, fue la implementación multimodal inicial de Open AI de su modelo GPT, pero GPT-4o también introdujo capacidades multimodales en ChatGPT.
Los modelos de IA multimodal pueden combinar información de varias fuentes de datos y de todos los medios para proporcionar una comprensión más completa y matizada de los datos. Esto permite que la IA tome decisiones más informadas y genere resultados más precisos.
Al aprovechar diferentes modalidades, los sistemas de IA multimodal pueden lograr una mayor precisión y solidez en tareas como el reconocimiento de imágenes, la traducción de idiomas y el reconocimiento de voz. La integración de diferentes tipos de datos ayuda a capturar más contexto y reducir las ambigüedades. Los sistemas de IA multimodal son más resilientes al ruido y la falta de datos. Si una modalidad no es confiable o no está disponible, el sistema puede basarse en otras modalidades para mantener el rendimiento.
La IA multimodal mejora la interacción humano-computadora al permitir interfaces más naturales e intuitivas para una mejor experiencia de usuario. Por ejemplo, los asistentes virtuales pueden comprender y responder tanto a los comandos de voz como a las señales visuales, lo que hace que las interacciones sean más fluidas y eficientes.
Imagine un chatbot que pueda hablarle sobre sus anteojos y hacer recomendaciones de tallas basadas en una foto que comparta con él, o una aplicación de identificación de aves que pueda reconocer imágenes de un ave en particular y confirmar su identificación al “escuchar” un clip de audio de su canto. La IA que puede operar en múltiples dimensiones sensoriales puede ofrecer a los usuarios resultados más significativos y más formas de interactuar con los datos.
Descubra el poder de integrar una estrategia de data lakehouse en su arquitectura de datos, incluyendo mejoras para escalar la IA y oportunidades de optimización de costos.
Podcast de Mixture of Experts: Nuestro futuro multimodal
Insights de IA generativa
La inteligencia artificial es un campo en rápida evolución en el que los últimos avances en algoritmos de entrenamiento para construir modelos fundacionales se están aplicando a la investigación multimodal. Esta disciplina conoció innovaciones multimodales previas, como el reconocimiento de voz audiovisual y la indexación de contenidos multimedia, que se desarrollaron antes de que los avances en aprendizaje profundo y ciencia de datos allanaran el camino a la IA generativa.
Hoy en día, los profesionales utilizan IA multimodal en todo tipo de casos de uso, desde el análisis de imágenes médicas en la atención médica hasta el uso de la visión artificial junto con otras entradas sensoriales en vehículos autónomos impulsados por IA.
Un documento de 2022 de Carnegie Mellon describe tres características de la IA multimodal: heterogeneidad, conexiones e interacciones.1 La heterogeneidad se refiere a las diversas cualidades, estructuras y representaciones de las modalidades. Una descripción textual de un acontecimiento será fundamentalmente diferente en calidad, estructura y representación de una fotografía del mismo acontecimiento.
Las conexiones se refieren a la información complementaria compartida entre diferentes modalidades. Estas conexiones pueden reflejarse en similitudes estadísticas o en correspondencia semántica. Por último, las interacciones se refieren a cómo interactúan las diferentes modalidades cuando se juntan.
El principal desafío de ingeniería para la IA multimodal radica en integrar y procesar de manera eficaz diversos tipos de datos para crear modelos que puedan aprovechar las fortalezas de cada modalidad y, al mismo tiempo, superar sus limitaciones individuales. Los autores del artículo también plantearon varios desafíos: representación, alineación, razonamiento, generación, transferencia y cuantificación.
La representación se refiere a cómo representar y resumir datos multimodales para reflejar la heterogeneidad y las interconexiones entre modalidades. Los profesionales emplean neural networks especializadas (por ejemplo, CNN para imágenes, transformadores para texto) para extraer características, y emplean espacios de incrustación conjunta o mecanismos de atención para el aprendizaje de representaciones.
La alineación tiene como objetivo identificar conexiones e interacciones entre elementos. Por ejemplo, los ingenieros emplean técnicas para la alineación temporal en datos de video y audio, y de alineación espacial para imágenes y texto.
El razonamiento tiene como objetivo constituir el conocimiento a partir de evidencia multimodal, generalmente a través de múltiples pasos inferenciales.
La generación implica aprender un proceso generativo para producir modalidades sin procesar que reflejen interacciones, estructura y coherencia multimodales.
La transferencia tiene como objetivo transferir conocimientos entre modalidades. Las técnicas avanzadas de aprendizaje por transferencia y los espacios de incrustación compartidos permiten que el conocimiento se transfiera entre modalidades.
La cuantificación implica estudios empíricos y teóricos para comprender el aprendizaje multimodal y evaluar mejor su rendimiento dentro de los modelos multimodales.
Los modelos multimodales agregan una capa de complejidad a los modelos de lenguaje de gran tamaño (LLM), que se basan en transformadores, construidos a su vez sobre una arquitectura de codificador-decodificador con un mecanismo de atención para procesar datos de manera eficiente. La IA multimodal emplea técnicas de fusión de datos para integrar diferentes modalidades. Esta fusión puede describirse como temprana (cuando las modalidades se codifican en el modelo para crear un espacio de representación común), intermedia (cuando las modalidades se combinan en diferentes etapas de preprocesamiento) y tardía (cuando varios modelos procesan diferentes modalidades y combinan los resultados).
La IA multimodal es un campo en rápida evolución, con varias tendencias clave que dan forma a su desarrollo y aplicación. Estas son algunas de las tendencias más destacadas:
GPT-4 V(ision) de OpenAI, Gemini de Google y otros modelos unificados están diseñados para manejar texto, imágenes y otros tipos de datos dentro de una única arquitectura. Estos modelos pueden comprender y generar contenido multimodal sin problemas.
Se están empleando mecanismos de atención avanzados y transformadores para alinear y fusionar mejor los datos de diferentes formatos, lo que lleva a resultados más coherentes y contextualmente precisos.
Las aplicaciones en conducción autónoma y realidad aumentada, por ejemplo, requieren IA para procesar e integrar datos de diversos sensores (cámaras, LIDAR y más) en tiempo real para tomar decisiones instantáneas.
Los investigadores están generando datos sintéticos que combinan varias modalidades (por ejemplo, descripciones de texto con imágenes correspondientes) para aumentar los conjuntos de datos de entrenamiento y mejorar el rendimiento del modelo.
Iniciativas como Hugging Face y Google AI están proporcionando herramientas de IA de código abierto, lo que fomenta un entorno colaborativo para que investigadores y desarrolladores avancen en el campo.
Nuestra investigación incluye técnicas avanzadas de visión artificial que permiten la extracción automática de características relevantes para el diagnóstico en imágenes multimodales de atención médica.
IBM y la NASA están experimentando actualmente con arquitecturas y técnicas de modelos para integrar estas escalas temporales y espaciales variables en un modelo multimodal.
Esta encuesta explora el panorama actual del aprendizaje automático multimodal, centrándose en su profundo impacto en el análisis de imágenes médicas y los sistemas de apoyo a la toma de decisiones médicas.
Explore nuestro centro para la investigación de IA, desde principios básicos hasta investigaciones emergentes, así como temas y avances destacados.
Descubra cómo IBM desarrolla modelos fundacionales generativos que son confiables, con eficiencia energética y portátiles.
Un curso para principiantes: en dos horas, aprenda los conceptos básicos de IA y cree y pruebe su primer modelo de aprendizaje automático con Python y scikit-learn.
1 https://arxiv.org/abs/2209.03430 (enlace externo a ibm.com), 7 de septiembre de 2022.