¿Qué son los modelos de lenguaje visual (VLM)?

25 de febrero de 2025

Autores

Cole Stryker

Editorial Lead, AI Models

Gather

¿Qué son los modelos de lenguaje visual (VLM)?

Los modelos de lenguaje visual (VLM) son modelos de inteligencia artificial (IA) que combinan la visión artificial y las capacidades de procesamiento del lenguaje natural (PLN).

Los VLM aprenden a mapear las relaciones entre los datos de texto y los datos visuales, como imágenes o vídeos, lo que permite a estos modelos generar texto a partir de entradas visuales o comprender las instrucciones del lenguaje natural en el contexto de la información visual.

Los VLM, también conocidos como modelos de lenguaje visual, combinan modelos de lenguaje de gran tamaño (LLM) con modelos de visión o algoritmos de machine learning (ML) visual. Como sistemas de IA multimodal, los VLM toman entrada e imágenes o vídeos como entrada y producen un texto como salida, normalmente en forma de descripciones de imágenes o vídeos, respondiendo a preguntas sobre una imagen o identificando partes de una imagen u objetos en un vídeo.

Elementos de un modelo de lenguaje de visión

Los modelos de lenguaje visual suelen constar de dos componentes clave:

    ● Un codificador de lenguaje

    ● Un codificador de visión

Codificador de lenguaje

Un codificador de lenguaje captura el significado semántico y las asociaciones contextuales entre palabras y frases y las convierte en embeddings de texto para que los modelos de IA las procesen.

La mayoría de los VLM utilizan una arquitectura de red neuronal conocida como modelo transformador para su codificador lingüístico. Algunos ejemplos de transformadores son el BERT (representaciones codificadoras bidireccionales a partir de transformadores) de Google, uno de los primeros modelos fundacionales que sustentan muchos de los LLM actuales, y el transformador preentrenado generativo (GPT) de OpenAI.

He aquí una breve descripción de la arquitectura del transformador:

    ● Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas embeddings que capturan la semántica y la posición de los tokens en la secuencia de entrada.

    ● Un mecanismo deautoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

    ● Los decodificadores utilizan este mecanismo de autoatención y los embeddings de los codificadores para generar la secuencia de salida estadísticamente más probable.

Codificador de visión

Un codificador de visión extrae propiedades visuales vitales, como colores, formas y texturas, de una imagen o entrada y las convierte en embeddings vectoriales que los modelos de machine learning pueden procesar.

Las versiones anteriores de los VLM utilizaban algoritmos de deep learning como redes neuronales convolucionales para la extracción de características. Los modelos de lenguaje visual más modernos emplean un transformador de visión (ViT), que aplica elementos de un modelo de lenguaje basado en transformadores.

Un ViT procesa una imagen en parches y los trata como secuencias, de forma similar a los tokens en un transformador de lenguaje. A continuación, el transformador de visión implementa la autoatención en estos parches para crear una representación basada en transformadores de la imagen de entrada.

Entrenamiento de modelos de lenguaje visual

Las estrategias de entrenamiento para los modelos de lenguaje visual implican alinear y fusionar la información de los codificadores de visión y lenguaje para que el VLM pueda aprender a correlacionar las imágenes con el texto y a tomar decisiones sobre las dos modalidades juntas.

La formación en VLM suele basarse en una combinación de enfoques:

    ● Aprendizaje contrastivo

    ● Enmascaramiento

    ● Entrenamiento de modelos generativos

    ● Modelos preentrenados

Aprendizaje contrastivo

El aprendizaje contrastivo mapea las embeddings de imagen y texto de ambos codificadores en un espacio de embedding conjunto o compartido. El VLM se entrena en conjuntos de datos de pares imagen-texto y aprende a minimizar la distancia entre los embeddings de los pares coincidentes y a maximizarla para los pares no coincidentes.

Un algoritmo habitual de aprendizaje contrastivo es el CLIP (Contrastive Language-Image Pretraining). CLIP se ha entrenado con 400 millones de pares de imágenes y subtítulos extraídos de Internet y ha demostrado una gran precisión en la clasificación zero-shot1.

Enmascaramiento

El enmascaramiento es otra técnica de entrenamiento en la que los modelos del lenguaje visual aprenden a predecir partes ocultas al azar de un texto o una imagen de entrada. En el modelado de lenguaje enmascarado, los VLM aprenden a completar las palabras que faltan en una leyenda de texto dada una imagen sin máscara.

Mientras tanto, en el modelado de imágenes enmascaradas, los VLM aprenden a reconstruir los píxeles ocultos en una imagen dada una leyenda sin máscara.

Un ejemplo de un modelo que utiliza el enmascaramiento es FLAVA (Foundational Language And Vision Alignment). FLAVA emplea un transformador de visión como codificador de imágenes y una arquitectura del transformador tanto para su codificador de lenguaje como para su codificador multimodal.

El codificador multimodal aplica un mecanismo de atención cruzada para integrar información textual y visual. El entrenamiento de FLAVA abarca el modelado enmascarado junto con el aprendizaje contrastivo1.

Entrenamiento de modelos generativos

El entrenamiento de modelos generativos para VLM implica aprender a generar nuevos datos. La generación de texto a imagen produce imágenes a partir del texto de entrada, mientras que la generación de imagen a texto produce texto, como leyendas, descripciones de imágenes o resúmenes, a partir de una imagen de entrada.

Ejemplos de modelos populares de conversión de texto a imagen son los modelos de difusión, como Imagen de Google, Midjourney, DALL-E de OpenAI (que comienza con DALL-E 2) y Stable Diffusion de Stability AI.

Modelos preentrenados

El entrenamiento de modelos de lenguaje visual desde cero puede requerir muchos recursos y ser costoso, por lo que los VLM pueden construirse a partir de modelos preentrenados.

Se puede utilizar un LLM preentrenado y un codificador de visión preentrenado, con una capa de red de mapeo añadida que alinea o proyecta la representación visual de una imagen en el espacio de entrada del LLM.

LLaVA (Large Language and Vision Assistant) es un ejemplo de un VLM desarrollado a partir de modelos preentrenados. Este modelo multimodal utiliza el Vicuna LLM y el CLIP ViT como codificador de visión, con sus salidas fusionadas en un espacio dimensional compartido utilizando un proyector lineal1.

Recopilar datos de entrenamiento de alta calidad para VLM puede ser tedioso, pero existen conjuntos de datos existentes que se pueden utilizar para el preentrenamiento, la optimización y el ajuste para tareas posteriores más específicas.

Por ejemplo, ImageNet contiene millones de imágenes anotadas, mientras que COCO tiene miles de imágenes etiquetadas para subtítulos a gran escala, detección de objetos y segmentación. Del mismo modo, el conjunto de datos LAION consta de miles de millones de pares multilingües de imagen y texto.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Casos de uso del modelo de lenguaje de visión

Los VLM pueden cerrar la brecha entre la información visual y la lingüística. Lo que antes requerían dos modelos de IA distintos para cada modalidad ahora se puede combinar en un modelo.

Los VLM se pueden utilizar para una serie de tareas de lenguaje visual:

    ● Subtítulos y resúmenes

    ● Generación de imágenes

    ● Búsqueda y recuperación de imágenes

    ● Segmentación de imágenes

    ● Detección de objetos

    ● Respuesta visual a preguntas (VQA)

Subtítulos y resúmenes

Los modelos de lenguaje visual pueden generar leyendas o descripciones detalladas de las imágenes. También pueden resumir vídeos e información visual en documentos, como imágenes médicas para entornos sanitarios o gráficos de reparación de equipos en instalaciones de fabricación.

Generación de imágenes

Los generadores de texto a imagen como DALL-E, Imagen, Midjourney y Stable Diffusion pueden ayudar a crear arte o imágenes para acompañar el contenido escrito. Las empresas también pueden utilizar estas herramientas durante las fases de diseño y creación de prototipos, lo que ayuda a visualizar ideas de productos.

Búsqueda y recuperación de imágenes

Los VLM pueden buscar en grandes galerías de imágenes o bases de datos de vídeos y recuperar fotos o vídeos relevantes basándose en una consulta en lenguaje natural. Esto puede mejorar la experiencia de usuario de los compradores en los sitios web de comercio electrónico, por ejemplo, ayudándoles a encontrar un artículo concreto o a navegar por un amplio catálogo.

Segmentación de imágenes

Un modelo de lenguaje visual puede dividir una imagen en segmentos basándose en las características espaciales que ha aprendido y extraído de la imagen. El VLM puede entonces suministrar descripciones de texto de esos segmentos.

También puede generar recuadros delimitadores para localizar objetos o proporcionar otras formas de anotación como etiquetas o resaltes de color para especificar secciones de una imagen relacionadas con una consulta.

Esto puede ser valioso para el mantenimiento predictivo, por ejemplo, ayudando a analizar imágenes o vídeos de las plantas de una fábrica para detectar posibles defectos de los equipos en tiempo real.

Detección de objetos

Los modelos de lenguaje visual pueden reconocer y clasificar objetos dentro de una imagen y proporcionar descripciones contextuales, como la posición de un objeto en relación con otros elementos visuales.

La detección de objetos se puede utilizar en robótica, por ejemplo, permitiendo a los robots comprender mejor su entorno y comprender instrucciones visuales.

Respuesta visual a preguntas (VQA)

Los VLM pueden responder preguntas sobre imágenes o vídeos, demostrando sus habilidades de razonamiento visual. Esto puede ayudar con el análisis de imágenes o vídeos e incluso puede extenderse a aplicaciones de IA agentiva.

En el sector del transporte, por ejemplo, los agentes de IA pueden encargarse de analizar vídeos de inspección de carreteras e identificar peligros como señales de tráfico dañadas, semáforos defectuosos y baches.

A continuación, se les puede dar instrucción para que elaboren un informe de mantenimiento que describa la ubicación y la descripción de esos peligros.

Ejemplos de VLM

Los modelos de lenguaje visual están avanzando rápidamente, con el potencial de estar tan extendidos como los LLM avanzados actuales.

Estos son algunos ejemplos de VLM populares:

    ● DeepSeek-VL2

    ● Gemini 2.0 Flash

    ● GPT-4o

    ● Llama 3.2

    ● NVLM

    ● Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 es un modelo de lenguaje visual de código abierto con 4500 millones de parámetros de la startup china de IA DeepSeek. Se compone de un codificador visual, un adaptador de lenguaje visual y el LLM DeepSeekMoE, que adopta una arquitectura Mixture of Experts (MoE).

DeepSeek-VL2 tiene una variante pequeña con 1000 millones de parámetros y una variante pequeña con 2800 millones de parámetros2.

Gemini 2.0 Flash

Gemini 2.0 Flash es parte del conjunto de modelos Google Gemini. Las modalidades de entrada incluyen audio, imagen, texto y vídeo, con una salida de solo texto. Ya está en camino una característica de generación de imágenes.

GPT-4o

El GPT-4o de OpenAI es un modelo único entrenado de extremo a extremo a través de datos de audio, visión y texto. Puede aceptar una mezcla de entradas de audio, imagen, texto y vídeo y producir cualquier combinación de outputs de audio, imagen y texto, con la misma red neuronal procesando todas las entradas y salidas.

Su homólogo más pequeño, GPT-4o mini, admite entrada de imágenes y texto y genera output de texto.

Llama 3.2

Los modelos de código abierto Llama 3.2 incluyen 2 VLM en tamaños de parámetros de 11 y 90 000 millones. Las entradas pueden ser una combinación de texto e imágenes, con una salida de texto solo3.

Según Meta, la arquitectura VLM consta de un codificador de imagen ViT, un adaptador de vídeo y un adaptador de imagen4.El adaptador de imagen entrenado por separado tiene una serie de capas de atención cruzada que alimentan las representaciones del codificador de imágenes en el LLM Llama 3.1 previamente entrenado3.

NVLM

NVLM es una familia de modelos multimodales de NVIDIA. NVLM-D es un modelo solo de decodificador que alimenta tokens de imagen directamente al decodificador LLM. NVLM-X emplea atención cruzada para procesar tokens de imagen y es más eficiente para manejar imágenes de alta resolución.

NVLM-H adopta una arquitectura híbrida que combina los enfoques de solo decodificador y atención cruzada, lo que mejora la eficiencia computacional y las capacidades de razonamiento5.

Qwen 2.5-VL

Qwen 2.5-VL es el modelo de lenguaje de visión insignia de la empresa china de cloud computing, Alibaba Cloud. Está disponible en tamaños de tres, siete y 72 mil millones de parámetros.

El modelo utiliza un codificador de visión ViT y el Qwen 2.5 LLM. Puede entender videos de más de una hora de duración y puede navegar por interfaces de escritorio y teléfonos inteligentes.

Puntos de referencia del modelo de lenguaje visual

Al igual que los LLM, los VLM también tienen sus propios puntos de referencia. Cada punto de referencia puede tener su propia tabla de clasificación, pero también hay tablas de clasificación independientes, como la tabla de clasificación OpenVLM alojada en Hugging Face, que clasifica los modelos de lenguaje visual de código abierto en función de varias métricas.

Estos son algunos puntos de referencia comunes para los modelos de lenguaje visual:

    ● MathVista es un punto de referencia para el razonamiento matemático visual.

    ● MMBench tiene una colección de preguntas de opción múltiple que cubren varias dimensiones de evaluación, incluida la localización de objetos, el reconocimiento óptico de caracteres (OCR) y más.

    ● MMMU (Massive Multidiscipline Multimodal Understanding) contiene desafíos multimodales de opción múltiple en varias materias para medir el conocimiento, la percepción y las habilidades de razonamiento.

    ● MM-Vet evalúa la integración de diferentes capacidades de VLM, como la generación de lenguaje, la conciencia espacial y más.

    ● OCRBench se centra en las capacidades de OCR de los VLM. Se compone de 5 componentes: VQA orientado a documentos, reconocimiento de expresiones matemáticas manuscritas, extracción de información clave, reconocimiento de texto y VQA centrado en el texto de la escena.

    ● VQA es uno de los primeros puntos de referencia de VLM. El conjunto de datos abarca preguntas abiertas sobre imágenes. Otros derivados de VQA incluyen GQA (respuestas a preguntas en gráficos de escenas de imágenes), OK-VQA (requiere conocimiento externo para responder preguntas visuales), ScienceQA (respuestas a preguntas científicas) y TextVQA (razonamiento visual basado en texto en imágenes).

La evaluación comparativa de VLM puede llevar mucho tiempo, pero algunas herramientas pueden ayudar a simplificar el proceso. VLMEvalKit es un kit de herramientas de evaluación de código abierto que permite la evaluación con un solo comando de los VLM. Otro conjunto de evaluaciones es LMMs-Eval, que también proporciona una interfaz de línea de comandos para la evaluación.

Desafíos de los VLM

Al igual que con cualquier sistema de IA, los VLM aún deben lidiar con los riesgos de la IA. Las empresas deben tener esto en cuenta al considerar la integración de modelos de lenguaje visual en sus flujos de trabajo internos o su implementación para aplicaciones comerciales.

A continuación se presentan algunos desafíos asociados con los VLM:

    ● Sesgo

    ● Coste y complejidad

    ● Generalización

    ● Alucinaciones

Sesgo

Los modelos de lenguaje visual pueden aprender de los sesgos que puedan estar presentes en los datos del mundo real con los que están entrenados o de los modelos previamente entrenados sobre los que están construidos. El uso de diversas fuentes de datos y la incorporación de supervisión humana durante todo el proceso pueden ayudar a mitigar el sesgo.

Coste y complejidad

Los modelos de visión y los modelos de lenguaje ya son complejos por sí mismos, por lo que fusionarlos puede aumentar aún más su complejidad. Esta complejidad lleva a la necesidad de más recursos, lo que dificulta implementar las VLM a gran escala. Las empresas deben estar preparadas para invertir en los recursos necesarios para desarrollar, formar e implementar estos modelos.

Generalización

Los VLM pueden fallar en lo que respecta a la generalización, que es la capacidad de un modelo para adaptarse y hacer predicciones precisas sobre datos nuevos y nunca antes vistos.

Un conjunto de datos equilibrado que incluya valores atípicos o casos extremos y emplee el aprendizaje zero-shot puede permitir a los VLM adaptarse a conceptos nuevos o combinaciones atípicas de imagen y texto.

El punto de referencia LiveXiv de IBM para tareas de comprensión visual de documentos también puede ayudar. LiveXiv es un punto de referencia dinámico que se actualiza automáticamente mensualmente, evaluando los VLM en preguntas e imágenes que probablemente nunca antes hayan visto.

Alucinaciones

Los modelos de lenguaje visual pueden ser propensos a las alucinaciones de la IA. Validar los resultados de estos modelos es un paso crucial para garantizar que sean precisos.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Notas a pie de página

Vínculos externos a ibm.com

1 An Introduction to Vision-Language Modeling. arXiv. 27 de mayo de 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding. GitHub. 13 de diciembre de 2024.

3 Model Information. GitHub. 30 de septiembre de 2024.

4 The Llama 3 Herd of Models . arXiv. 23 de noviembre de 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs. arXiv. 22 de octubre de 2024.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo