Muchos de nosotros estamos familiarizados con las aplicaciones de IA unimodal. Una popular herramienta de IA unimodal es ChatGPT. Los chatbots como ChatGPT utilizan el procesamiento del lenguaje natural (PLN) para comprender las preguntas de los usuarios y automatizar las respuestas en tiempo real. El tipo de entrada al que se pueden aplicar estos modelos de lenguaje de gran tamaño (LLM) unimodales se limita al texto.

La inteligencia artificial multimodal (IA) se basa en modelos de machine learning construidos sobre redes neuronales. Estas redes neuronales son capaces de procesar e integrar información de múltiples tipos de datos utilizando técnicas de deep learning. Estas diferentes modalidades producidas por el modelo de IA generativa, a veces llamadas modelos de IA generativa, pueden incluir texto, imágenes, entrada de vídeo y audio.

Los sistemas de IA multimodal tienen muchos casos de uso en el mundo real, desde diagnósticos de imágenes médicas en entornos sanitarios mediante visión artificial hasta reconocimiento de voz en aplicaciones de traducción. Estos avances en la tecnología de la IA pueden optimizar varios dominios. La principal ventaja de las arquitecturas multimodales es la capacidad de procesar diferentes tipos de datos.