Los modelos de lenguaje de visión (VLM) son modelos de inteligencia artificial (IA) que combinan la visión por computadora y las capacidades de procesamiento del lenguaje natural (PNL).
Los VLM aprenden a mapear las relaciones entre datos de texto y datos visuales como imágenes o videos, permitiendo que estos modelos generen texto a partir de entradas visuales o entiendan instrucciones del lenguaje natural en el contexto de la información visual.
Los VLM, también conocidos como modelos de lenguaje visual, combinan modelos de lenguaje grande (LLM) con modelos de visión o algoritmos de machine learning (ML).
Como sistemas multimodales de IA, los VLM toman texto e imágenes o videos como entrada y producen texto como resultados, generalmente en forma de descripciones de imágenes o videos, respondiendo preguntas sobre una imagen o identificando partes de una imagen u objetos en un video.
Los modelos de lenguaje de visión suelen constar de 2 componentes clave:
● Un codificador de lenguaje
● Un codificador de visión
Un codificador de lenguaje captura el significado semántico y las asociaciones contextuales entre palabras y frases y las convierte en incorporaciones textuales para que los modelos de IA las procesen.
La mayoría de los VLM utilizan una arquitectura de neural network conocida como el modelo transformador para su codificador de lenguaje. Entre los ejemplos de transformadores se incluyen BERT (Representaciones de Codificador Bidireccional de Transformadores) de Google, uno de los primeros modelos fundacionales que sustentan muchos de los LLM actuales, y el transformador generativo preentrenado (GPT) de OpenAI.
Aquí hay una breve descripción general de la arquitectura transformadora:
● Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incorporaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.
● Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
● Los decodificadores utilizan este mecanismo de autoatención y las incorporaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Un codificador de visión extrae propiedades visuales vitales, como colores, formas y texturas, de una entrada de imagen o video y las convierte en incorporaciones que los modelos de machine learning pueden procesar.
Las versiones anteriores de los VLM utilizaban algoritmos de aprendizaje profundo, como redes neuronales convolucionales, para la extracción de características. Los modelos de lenguaje de visión más modernos emplean un transformador de visión (ViT), que aplica elementos de un modelo de lenguaje basado en transformadores.
Un ViT procesa una imagen en parches y los trata como secuencias, de manera similar a un token en un transformador de lenguaje. Luego, el transformador de visión implementa la autoatención en estos parches para crear una representación basada en transformadores de la imagen de entrada.
Las estrategias de capacitación para modelos de lenguaje visual implican alinear y fusionar información tanto de los codificadores de visión como de lenguaje para que el VLM pueda aprender a correlacionar imágenes con texto y tomar decisiones sobre las dos modalidades en conjunto.
La entrenamiento de VLM generalmente se basa en una combinación de enfoques:
● Aprendizaje contrastivo
● Enmascaramiento
● Entrenamiento de modelos generativos
● Modelos preentrenados
El aprendizaje contrastivo mapea las incorporaciones de imagen y texto de ambos codificadores en un espacio de incorporación conjunto o compartido. El VLM está entrenado en conjuntos de datos de pares imagen-texto y aprende a minimizar la distancia entre las incorporaciones de pares coincidentes y a maximizarla para pares no coincidentes.
Un algoritmo habitual de aprendizaje contrastivo es CLIP (Contrastive Language-Image Pretraining). CLIP se capacitó con 400 millones de pares de imágenes con título extraídas de Internet y demostró una elevada precisión de clasificación zero-shot.1
El enmascaramiento es otra técnica de entrenamiento en la que los modelos de lenguaje visual aprenden a predecir partes oscurecidas aleatoriamente de un texto o imagen de entrada. En el modelado de lenguaje enmascarado, los VLM aprenden a completar las palabras que faltan en una leyenda de texto dada una imagen desenmascarada.
Por su parte, en el modelado de imágenes enmascaradas, los VLM aprenden a reconstruir los píxeles ocultos en una imagen dada una leyenda desenmascarada.
Un ejemplo de un modelo que emplea enmascaramiento es FLAVA (Foundational Language And Vision Alignment). FLAVA emplea un transformador de visión como codificador de imagen y una arquitectura transformadora tanto para su codificador de lenguaje como para su codificador multimodal.
El codificador multimodal aplica un mecanismo de atención cruzada para integrar información textual y visual. La formación de FLAVA abarca el modelado enmascarado junto con el aprendizaje contrastivo.1
El entrenamiento de modelos generativos para VLM implica aprender a generar nuevos datos. La generación de texto a imagen produce imágenes a partir del texto de entrada, mientras que la generación de imagen a texto produce texto, como subtítulos, descripciones de imágenes o resúmenes, a partir de una imagen de entrada.
Ejemplos de modelos populares de conversión de texto a imagen son los modelos de difusión, como Imagen de Google, Midjourney, DALL-E de OpenAI (que comienza con DALL-E 2) y Stable Diffusion de Stability AI.
Entrenar modelos de lenguaje visual desde cero puede ser costoso y consumir muchos recursos, por lo que los VLM pueden construirse a partir de modelos preentrenados.
Se puede emplear un LLM preentrenado y un codificador de visión preentrenado, con una capa de red de mapeo agregada que alinea o proyecta la representación visual de una imagen al espacio de entrada del LLM.
LLaVA (Large Language and Vision Assistant) es un ejemplo de VLM desarrollado a partir de modelos preentrenados. Este modelo multimodal emplea el Vicuna LLM y el CLIP ViT como codificador de visión, con sus resultados fusionados en un espacio dimensional compartido mediante un proyector lineal.1
Recopilar datos de entrenamiento de alta calidad para los VLM puede ser tedioso, pero existen conjuntos de datos existentes que se pueden utilizar para el entrenamiento previo, la optimización y el ajuste para tareas posteriores más específicas.
Por ejemplo, ImageNet contiene millones de imágenes anotadas, mientras que COCO tiene miles de imágenes etiquetadas para subtítulos a gran escala, detección de objetos y segmentación. Del mismo modo, el conjunto de datos LAION consta de miles de millones de pares multilingües de imagen y texto.
Los VLM pueden cerrar la brecha entre la información visual y la lingüística. Lo que antes requería dos modelos de IA separados para cada modalidad ahora se puede combinar en un modelo.
Los VLM se pueden utilizar para diversas tareas de lenguaje de visión:
● Subtítulos y resúmenes
● Generación de imágenes
● Búsqueda y recuperación de imágenes
● Segmentación de imágenes
● Detección de objetos
● Respuesta visual a preguntas (VQA)
Los modelos de lenguaje de visión pueden generar leyendas o descripciones detalladas de las imágenes. También pueden resumir videos e información visual en documentos, como imágenes médicas para entornos de atención de la salud o gráficos de reparación de equipamiento en instalaciones de fabricación.
Los generadores de texto a imagen como DALL-E, Imagen, Midjourney y Stable Diffusion pueden ayudar a crear arte o imágenes para acompañar el contenido escrito. Las empresas también pueden utilizar estas herramientas durante las fases de diseño y creación de prototipos, lo que ayuda a visualizar ideas de productos.
Los VLM pueden buscar en grandes galerías de imágenes o bases de datos de videos y recuperar fotos o videos relevantes basados en una consulta en lenguaje natural. Esto puede mejorar la experiencia del usuario de los compradores en sitios web de comercio electrónico, por ejemplo, ayudándoles a encontrar un artículo en particular o navegar por un amplio catálogo.
Un modelo de lenguaje visual puede dividir una imagen en segmentos en función de las características espaciales que ha aprendido y extraído de la imagen. El VLM puede proporcionar descripciones de texto de esos segmentos.
También puede generar cuadros delimitadores para localizar objetos o proporcionar otras formas de anotación, como etiquetas o resaltado de colores para especificar secciones de una imagen relacionadas con una consulta.
Esto puede ser valioso para mantenimiento predictivo, por ejemplo, ayudando a analizar imágenes o videos de plantas de fábricas para detectar posibles defectos en el equipamiento en tiempo real.
Los modelos de lenguaje de visión pueden reconocer y clasificar objetos dentro de una imagen y proporcionar descripciones contextuales, como la posición de un objeto en relación con otros elementos visuales.
La detección de objetos se puede utilizar en robótica, por ejemplo, lo que permite a los robots comprender mejor su entorno y comprender instrucciones visuales.
Los VLM pueden responder preguntas sobre imágenes o videos, demostrando sus habilidades de razonamiento visual. Esto puede ayudar con el análisis de imágenes o videos e incluso puede extenderse a aplicaciones de IA agéntica.
En el sector del transporte, por ejemplo, los agentes de IA pueden encargarse de analizar videos de inspección vial e identificar peligros, como señales de tráfico dañadas, semáforos defectuosos y baches.
Luego, se les puede dar una instrucción para que produzcan un informe de mantenimiento que describa la ubicación y la descripción de esos peligros.
Los modelos lingüísticos visuales están avanzando rápidamente, con el potencial de ser tan populares como los actuales LLM avanzados.
A continuación se muestran algunos ejemplos de VLM populares:
● DeepSeek-VL2
● Gemini 2.0 Flash
● GPT-4o
● Llama 3.2
● NVLM
● Qwen 2.5-VL
DeepSeek-VL2 es un modelo lingüístico de visión de código abierto con 4500 millones de parámetros de la compañía china de IA DeepSeek. Está compuesto por un codificador de visión, un adaptador de lenguaje de visión y el DeepSeekMoe LLM, que adopta una arquitectura de Mezcla de Expertos (MoE).
DeepSeek-VL2 tiene una variante minúscula con 1000 millones de parámetros y una variante pequeña con 2800 millones de parámetros.2
Gemini 2.0 Flash forma parte de la suite de modelos Google Gemini. Las modalidades de entrada incluyen audio, imagen, texto y video, con un resultado de solo texto. Una característica de generación de imágenes está en camino.
GPT-4o de OpenAI es un modelo único entrenado de extremo a extremo en datos de audio, visión y texto.
Puede aceptar una combinación de entradas de audio, imagen, texto y video y producir cualquier combinación de resultados de audio, imagen y texto, con la misma neural network procesando todas las entradas y salidas.
Su contraparte más pequeña, GPT-4o mini, admite entradas de imágenes y texto, y genera resultados de texto.
Los modelos de código abierto Llama 3.2 incluyen 2 VLM en 11 y 90 mil millones de tamaños de parámetros. Las entradas pueden ser una combinación de texto e imágenes, con un resultado de solo texto.3
Según Meta, la arquitectura VLM consta de un codificador de imágenes ViT, un adaptador de video y un adaptador de imágenes.4 El adaptador de imágenes entrenado por separado tiene una serie de capas de atención cruzada que alimentan las representaciones del codificador de imágenes en el LLM Llama 3.1 previamente entrenado.3
NVLM es una familia de modelos multimodales de NVIDIA. NVLM-D es un modelo sólo de decodificador que alimenta tokens de imagen directamente al decodificador LLM. NVLM-X emplea atención cruzada para procesar tokens de imagen y es más eficiente para manejar imágenes de alta resolución.
NVLM-H adopta una arquitectura híbrida que combina los enfoques de sólo decodificador y atención cruzada, mejorando la eficiencia computacional y las capacidades de razonamiento.5
Qwen 2.5-VL es el modelo de lenguaje de visión insignia de la empresa china de computación en la nube Alibaba Cloud. Viene en 3, 7 y 72 mil millones de tamaños de parámetros.
El modelo utiliza un codificador de visión ViT y el LLM Qwen 2.5. Puede comprender videos de más de una hora de duración, así como navegar por interfaces de escritorio y teléfonos inteligentes.
Al igual que los LLM, los VLM también tienen sus propios puntos de referencia. Cada punto de referencia puede tener su propia tabla de clasificación, pero también hay tablas de clasificación independientes, como OpenVLM Leaderboard, alojada en Hugging Face, que clasifican los modelos de lenguaje de visión de código abierto en función de distintas métricas.
Estos son algunos puntos de referencia comunes para los modelos de lenguaje visual:
● MathVista es un punto de referencia para el razonamiento matemático visual.
● MMBench tiene una colección de preguntas de opción múltiple que cubren varias dimensiones de evaluación, incluida la localización de objetos, el reconocimiento óptico de caracteres (OCR) y más.
● MMMU (Massive Multidiscipline Multimodal Understanding) contiene desafíos multimodales de opción múltiple en varias materias para medir el conocimiento, la percepción y las habilidades de razonamiento.
● MM-Vet evalúa la integración de diferentes capacidades de VLM, como la generación de lenguaje, la concientización espacial y más.
● OCRBench se centra en las capacidades de OCR de los VLM. Consta de cinco componentes: VQA orientado a documentos, reconocimiento de expresiones matemáticas manuscritas, extracción de información clave, reconocimiento de texto y VQA centrado en texto de escena.
● VQA es uno de los primeros puntos de referencia de VLM. El conjunto de datos abarca preguntas abiertas sobre imágenes. Otros derivados de VQA incluyen GQA (respuestas a preguntas en gráficos de escenas de imágenes), OK-VQA (requiere conocimiento externo para responder preguntas visuales), ScienceQA (respuestas a preguntas científicas) y TextVQA (razonamiento visual basado en texto en imágenes).
La evaluación comparativa de los VLM puede llevar mucho tiempo, pero algunas herramientas ayudan a simplificar el proceso. VLMEvalKit es un kit de herramientas de evaluación de código abierto que permite la evaluación de VLM con un solo comando. Otra suite de evaluación es LMMs-Eval, que también proporciona una interfaz de línea de comandos para la evaluación.
Al igual que con cualquier sistema de IA, los VLM aún deben lidiar con los riesgos de la IA. Las compañías deben tener esto en cuenta al considerar la integración de modelos de lenguaje de visión en sus flujos de trabajo internos o su implementación para aplicaciones comerciales.
A continuación, se presentan algunos desafíos asociados con los VLM:
● Sesgos
● Costo y complejidad
● Generalización
● Alucinaciones
Los modelos de lenguaje visual pueden aprender de los sesgos que puedan estar presentes en los datos del mundo real con los que están entrenados o de los modelos previamente capacitados sobre los que están construidos. El uso de diversas fuentes de datos y la incorporación de supervisión humana durante todo el proceso pueden ayudar a mitigar el sesgo.
Los modelos de visión y los modelos de lenguaje ya son complejos por sí mismos, por lo que fusionarlos puede aumentar aún más su complejidad. Esta complejidad lleva a la necesidad de más recursos de computación, lo que dificulta desplegar VLM a gran escala. Las empresas deben estar preparadas para invertir en los recursos requeridos para desarrollar, capacitar y desplegar estos modelos.
Los VLM pueden fallar en cuanto a la generalización, que es la capacidad de un modelo para adaptar y hacer predicciones precisas sobre datos nuevos, nunca antes vistos.
Un conjunto de datos equilibrado que incluya valores atípicos o casos extremos y emplee el aprendizaje zero-shot puede permitir a los VLM adaptarse a conceptos novedosos o combinaciones atípicas de imagen y texto.
El punto de referencia LiveXiv de IBM para tareas de comprensión visual de documentos también puede ayudar. LiveXiv es un punto de referencia dinámico que se actualiza de manera automática mensualmente, evaluando los VLM con preguntas e imágenes que quizá nunca antes habían visto.
Los modelos de lenguaje de visión pueden ser propensos a las alucinaciones de IA. Validar los resultados de estos modelos es un paso crucial para garantizar que sean precisos.
Todos los enlaces se encuentran fuera de ibm.com
1 An Introduction to Vision-Language Modeling, arXiv, 27 de mayo de 2024.
2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 de diciembre de 2024.
3 Model Information, GitHub, 30 de septiembre de 2024.
4 The Llama 3 Herd of Models , arXiv, 23 de noviembre de 2024.
5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 de octubre de 2024.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.