Mi IBM Iniciar sesión Suscríbase

¿Qué es la IA multimodal?

15 de julio de 2024

Autores

Cole Stryker

Editorial Lead, AI Models

Gather

¿Qué es la IA multimodal?

La IA multimodal se refiere a modelos de aprendizaje automático capaces de procesar e integrar información de múltiples modalidades o tipos de datos. Estas modalidades pueden incluir texto, imágenes, audio, video y otras formas de entradas sensoriales.

A diferencia de los modelos tradicionales de IA que suelen estar diseñados para manejar un solo tipo de datos, la IA multimodal combina y analiza diferentes formas de entradas de datos para lograr una comprensión más completa y generar resultados más estables.

Por ejemplo, un modelo multimodal puede recibir una foto de un paisaje como entrada y generar un resumen escrito de las características de ese lugar. O bien, podría recibir un resumen escrito de un paisaje y generar una imagen basada en esa descripción. Esta capacidad de trabajar en múltiples modalidades dota a estos modelos de poderosas capacidades.

OpenAI lanzó ChatGPT en noviembre de 2022 y no tardó en poner la IA generativa en boca de todos. ChatGPT era una IA unimodal, diseñada para recibir entradas de texto y generar salidas de texto mediante el procesamiento de lenguaje natural (PLN).

La IA multimodal hace que la IA generativa sea más sólida y útil al permitir varios tipos de entradas y salidas. Dall-e, por ejemplo, fue la implementación multimodal inicial de Open AI de su modelo GPT, pero GPT-4o también introdujo capacidades multimodales en ChatGPT.

Los modelos de IA multimodal pueden combinar información de varias fuentes de datos y de todos los medios para proporcionar una comprensión más completa y matizada de los datos. Esto permite que la IA tome decisiones más informadas y genere resultados más precisos.

Al aprovechar diferentes modalidades, los sistemas de IA multimodal pueden lograr una mayor precisión y solidez en tareas como el reconocimiento de imágenes, la traducción de idiomas y el reconocimiento de voz. La integración de diferentes tipos de datos ayuda a capturar más contexto y reducir las ambigüedades. Los sistemas de IA multimodal son más resilientes al ruido y la falta de datos. Si una modalidad no es confiable o no está disponible, el sistema puede basarse en otras modalidades para mantener el rendimiento.

La IA multimodal mejora la interacción humano-computadora al permitir interfaces más naturales e intuitivas para una mejor experiencia de usuario. Por ejemplo, los asistentes virtuales pueden comprender y responder tanto a los comandos de voz como a las señales visuales, lo que hace que las interacciones sean más fluidas y eficientes.

Imagine un chatbot que pueda hablarle sobre sus anteojos y hacer recomendaciones de tallas basadas en una foto que comparta con él, o una aplicación de identificación de aves que pueda reconocer imágenes de un ave en particular y confirmar su identificación al “escuchar” un clip de audio de su canto. La IA que puede operar en múltiples dimensiones sensoriales puede ofrecer a los usuarios resultados más significativos y más formas de interactuar con los datos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Cómo funciona la IA multimodal

Los modelos multimodales agregan una capa de complejidad a los modelos de lenguaje de gran tamaño (LLM), que se basan en transformadores, construidos a su vez sobre una arquitectura de codificador-decodificador con un mecanismo de atención para procesar datos de manera eficiente.

La IA multimodal emplea técnicas de fusión de datos para integrar diferentes modalidades. Esta fusión puede describirse como temprana (cuando las modalidades se codifican en el modelo para crear un espacio de representación común), intermedia (cuando las modalidades se combinan en diferentes etapas de preprocesamiento) y tardía (cuando varios modelos procesan diferentes modalidades y combinan los resultados).

La inteligencia artificial es un campo en rápida evolución en el que los últimos avances en algoritmos de entrenamiento para construir modelos fundacionales se están aplicando a la investigación multimodal. Esta disciplina conoció innovaciones multimodales previas, como el reconocimiento de voz audiovisual y la indexación de contenidos multimedia, que se desarrollaron antes de que los avances en aprendizaje profundo y ciencia de datos allanaran el camino a la IA generativa.

Hoy en día, los profesionales utilizan IA multimodal en todo tipo de casos de uso, desde el análisis de imágenes médicas en la atención médica hasta el uso de la visión artificial junto con otras entradas sensoriales en vehículos autónomos impulsados por IA.

Un documento de 2022 de Carnegie Mellon describe tres características de la IA multimodal: heterogeneidad, conexiones e interacciones.1 La heterogeneidad se refiere a las diversas cualidades, estructuras y representaciones de las modalidades. Una descripción textual de un acontecimiento será fundamentalmente diferente en calidad, estructura y representación de una fotografía del mismo acontecimiento.

Las conexiones se refieren a la información complementaria compartida entre diferentes modalidades. Estas conexiones pueden reflejarse en similitudes estadísticas o en correspondencia semántica. Por último, las interacciones se refieren a cómo interactúan las diferentes modalidades cuando se juntan.

El principal desafío de ingeniería para la IA multimodal radica en integrar y procesar de manera eficaz diversos tipos de datos para crear modelos que puedan aprovechar las fortalezas de cada modalidad y, al mismo tiempo, superar sus limitaciones individuales. Los autores del artículo también plantearon varios desafíos: representación, alineación, razonamiento, generación, transferencia y cuantificación.

  •  La representación se refiere a cómo representar y resumir datos multimodales para reflejar la heterogeneidad y las interconexiones entre modalidades. Los profesionales emplean neural networks especializadas (por ejemplo, CNN para imágenes, transformadores para texto) para extraer características, y emplean espacios de incrustación conjunta o mecanismos de atención para el aprendizaje de representaciones.
  •  La alineación tiene como objetivo identificar conexiones e interacciones entre elementos. Por ejemplo, los ingenieros emplean técnicas para la alineación temporal en datos de video y audio, y de alineación espacial para imágenes y texto.
  •  El razonamiento tiene como objetivo constituir el conocimiento a partir de evidencia multimodal, generalmente a través de múltiples pasos inferenciales.
  •  La generación implica aprender un proceso generativo para producir modalidades sin procesar que reflejen interacciones, estructura y coherencia multimodales.
  •  La transferencia tiene como objetivo transferir conocimientos entre modalidades. Las técnicas avanzadas de aprendizaje por transferencia y los espacios de incrustación compartidos permiten que el conocimiento se transfiera entre modalidades.
  •  La cuantificación implica estudios empíricos y teóricos para comprender el aprendizaje multimodal y evaluar mejor su rendimiento dentro de los modelos multimodales.

 

 

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tendencias en IA multimodal

La IA multimodal es un campo en rápida evolución, con varias tendencias clave que dan forma a su desarrollo y aplicación. Estas son algunas de las tendencias más destacadas:

Modelos unificados

GPT-4 V(ision) de OpenAI, Gemini de Google y otros modelos unificados están diseñados para manejar texto, imágenes y otros tipos de datos dentro de una única arquitectura. Estos modelos pueden comprender y generar contenido multimodal sin problemas.

Interacción intermodal mejorada

Se están empleando mecanismos de atención avanzados y transformadores para alinear y fusionar mejor los datos de diferentes formatos, lo que lleva a resultados más coherentes y contextualmente precisos.

Procesamiento multimodal en tiempo real

Las aplicaciones en conducción autónoma y realidad aumentada, por ejemplo, requieren IA para procesar e integrar datos de diversos sensores (cámaras, LIDAR y más) en tiempo real para tomar decisiones instantáneas.

Aumento de datos multimodal

Los investigadores están generando datos sintéticos que combinan varias modalidades (por ejemplo, descripciones de texto con imágenes correspondientes) para aumentar los conjuntos de datos de entrenamiento y mejorar el rendimiento del modelo.

Código abierto y colaboración

Iniciativas como Hugging Face y Google AI están proporcionando herramientas de IA de código abierto, lo que fomenta un entorno colaborativo para que investigadores y desarrolladores avancen en el campo.

Soluciones relacionadas

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1 https://arxiv.org/abs/2209.03430, 7 de septiembre de 2022.