O que são modelos de linguagem de visão (VLMs)?

O que são modelos de linguagem de visão (VLMs)?

Modelos de linguagem de visão (VLMs) são modelos de inteligência artificial (IA) que combinam recursos de computer vision e processamento de linguagem natural.

Os VLMs aprendem a mapear as relações entre os dados de texto e os dados visuais, como imagens ou vídeos, permitindo que esses modelos gerem texto a partir de inputs visuais ou entendam prompts de linguagem natural no contexto de informações visuais.

Os VLMs, também chamados de modelos de linguagem visual, combinam grandes modelos de linguagem (LLMs) com modelos de visão ou algoritmos de aprendizado de máquina (ML) visual.

Como sistemas de IA multimodal, os VLMs recebem texto e imagens ou vídeos como input e produzem um texto, geralmente na forma de descrições de imagens ou vídeos, respondendo a perguntas sobre uma imagem ou identificando partes de uma imagem ou objetos em um vídeo.

Elementos de um modelo de linguagem de visão

Os modelos de linguagem de visão são normalmente compostos por 2 componentes principais:

  • Um codificador de linguagem

  • Um codificador de visão

Codificador de linguagem

Um codificador de linguagem captura o significado semântico e as associações contextuais entre palavras e frases e os transforma em embeddings de texto para os modelos de IA processarem.

A maioria dos VLMs utiliza uma arquitetura de rede neural conhecida como modelo transformador para o codificador de linguagem. Exemplos de transformadores incluem o BERT (Representações Codificadoras Bidirecionais de Transformadores) do Google, um dos primeiros modelos de base que dão suporte a muitos dos LLMs atuais, e o transformador pré-treinado generativo (GPT)da OpenAI.

Veja a seguir uma breve visão geral da arquitetura de transformação:

  • Codificadores transformam sequências de entrada em representações numéricas chamadas embeddings, que capturam a semântica e a posição dos tokens na sequência de entrada.

  • Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.

  • Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.

Codificador de visão

Um codificador de visão extrai propriedades visuais vitais, como cores, formas e texturas de um input de imagem ou vídeo, e as converte em embeddings vetoriais que os modelos de aprendizado de máquina podem processar.

As versões anteriores dos VLMs usavam algoritmos de deep learning, como as redes neurais convolucionais, para extração de funcionalidades. Modelos de linguagem de visão mais modernos empregam um transformador de visão (ViT), que aplica elementos de um modelo de linguagem baseado em transformador.

Um ViT processa uma imagem em patches e os trata como sequências, semelhantes a tokens em um transformador de linguagem. O transformador de visão então implementa autoatenção nesses patches para criar uma representação baseada em transformador da imagem de input.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Treinamento de modelos de linguagem de visão

As estratégias de treinamento para modelos de linguagem de visão envolvem o alinhamento e a fusão de informações dos codificadores de visão e de linguagem para que o VLM possa aprender a correlacionar imagens com texto e tomar decisões sobre as duas modalidades em conjunto.

O treinamento de VLM geralmente utiliza uma combinação de abordagens:

  • Aprendizado contrastante

  • Mascaramento

  • Treinamento de modelos generativos

  • Modelos pré-treinados

Aprendizado contrastivo

O aprendizado contrastivo mapeia os embeddings de imagem e texto de ambos os codificadores em um espaço de embedding conjunto ou compartilhado. O VLM é treinado em conjuntos de dados de pares imagem-texto e aprende a minimizar a distância entre os embeddings dos pares correspondentes e a maximizá-la para os pares não correspondentes.

Um algoritmo de aprendizado contrastivo comum é o CLIP (Pré-treinamento Contrastivo de Linguagem e Imagem). O CLIP foi treinado com 400 milhões de pares de imagens retirados da internet e demonstrou uma alta precisão na classificação zero-shot.1

Mascaramento

O mascaramento é outra técnica de treinamento em que modelos de linguagem visual aprendem a prever partes aleatoriamente obscurecidas de um texto ou imagem de input. Na modelagem de linguagem mascarada, os VLMs aprendem a preencher as palavras que faltam em uma legenda de texto, a partir de uma imagem não mascarada.

Enquanto isso, na modelagem de imagens mascaradas, os VLMs aprendem a reconstruir os pixels ocultos em uma imagem, a partir de uma legenda não mascarada.

Um exemplo de modelo que usa mascaramento é o FLAVA (Foundational Language And Vision Alignment). O FLAVA emprega um transformador de visão como codificador de imagem e uma arquitetura de transformação tanto para seu codificador de linguagem quanto para o codificador multimodal.

O codificador multimodal aplica um mecanismo de atenção cruzada para integrar as informações textuais e visuais. O treinamento do FLAVA engloba modelagem mascarada junto com o aprendizado contrastivo.1

Treinamento de modelo generativo

O treinamento de modelo generativo para VLMs envolve aprender a gerar novos dados. A geração de texto para imagem produz imagens a partir do texto de input, enquanto a geração de imagem para texto produz textos, como legendas, descrições de imagens ou resumos, a partir de uma imagem de input.

Exemplos de modelos populares de texto para imagem incluem modelos de difusão, como o Imagen do Google, Midjourney, o DALL-E da OpenIA (começando com o DALL-E 2) e o Stable Diffusion da Stability IA.

Modelos pré-treinados

Treinar modelos de linguagem de visão do zero pode ser custoso e exigir muitos recursos, portanto, os VLMs podem ser criados a partir de modelos pré-treinados.

Um LLM pré-treinado e um codificador de visão pré-treinado podem ser usados, com uma camada de rede de mapeamento adicional que alinha ou projeta a representação visual de uma imagem no espaço de input do LLM.

O LLaVA (Large Language and Vision Assistant) é um exemplo de um VLM desenvolvido a partir de modelos pré-treinados. Esse modelo multimodal usa o Vicuna LLM e o CLIP ViT como codificador de visão, com suas saídas mescladas em um espaço dimensional compartilhado usando um projetor linear.1

A coleta de dados de treinamento de alta qualidade para VLMs pode ser tediosa, mas há conjuntos de dados existentes que podem ser usados para pré-treinamento, otimização e ajuste fino para tarefas posteriores mais específicas.

Por exemplo, o ImageNet contém milhões de imagens anotadas, enquanto o COCO possui milhares de imagens rotuladas para legendas, detecção de objetos e segmentação em grande escala. Da mesma forma, o conjunto de dados LAION consiste em bilhões de pares de imagem-texto multilíngues.

AI Academy

A ascensão da IA generativa para negócios

Saiba mais sobre a ascensão histórica da IA generativa e o que isso significa para os negócios.

Casos de uso de modelos de linguagem de visão

Os VLMs podem preencher a lacuna entre as informações visuais e linguísticas. O que antes exigia dois modelos de IA separados para cada modalidade agora pode ser combinado em um único modelo.

Os VLMs podem ser usados para uma variedade de tarefas de linguagem de visão:

  • Criação de legendas e sumarização

  • Geração de imagens

  • Busca e recuperação de imagem

  • Segmentação de imagens

  • Detecção de objetos

  • Resposta a perguntas visuais (VQA)

Criação de legendas e sumarização

Os modelos de linguagem de visão podem gerar legendas ou descrições detalhadas de imagens. Eles também podem resumir vídeos e informações visuais em documentos, como imagens médicas para ambientes de saúde ou gráficos de reparo de equipamentos em instalações de fabricação.

Geração de imagens

Geradores de texto para imagem, como DALL-E, Imagen, Midjourney e Stable Diffusion, podem ajudar na criação de arte ou imagens para acompanhar o conteúdo escrito. As empresas também podem usar essas ferramentas durante as fases de design e prototipagem, ajudando a visualizar ideias de produtos.

Busca e recuperação de imagem

Os VLMs podem pesquisar em grandes galerias de imagens ou bancos de dados de vídeos e recuperar fotos ou vídeos relevantes com base em uma consulta de linguagem natural. Isso pode melhorar a experiência do usuário para compradores em sites de comércio eletrônico, por exemplo, ajudando-os a encontrar um item específico ou navegar em um vasto catálogo.

Segmentação de imagens

Um modelo de linguagem de visão pode particionar uma imagem em segmentos com base nas funcionalidades espaciais que ele aprendeu e extraiu da imagem. O VLM pode então fornecer descrições de texto desses segmentos.

Ele também pode gerar caixas delimitadoras para localizar objetos ou fornecer outras formas de anotação, como rótulos ou realces coloridos para especificar seções de uma imagem relacionadas a uma consulta.

Isso pode ser valioso para a manutenção preditiva, por exemplo, ajudando a analisar imagens ou vídeos de chão de fábrica para detectar possíveis defeitos nos equipamentos em tempo real.

Detecção de objetos

Os modelos de linguagem de visão podem reconhecer e classificar objetos dentro de uma imagem e fornecer descrições contextuais, como a posição de um objeto em relação a outros elementos visuais.

A detecção de objetos pode ser usada na robótica, por exemplo, permitindo que os robôs entendam melhor seu ambiente e compreendam instruções visuais.

Respostas a perguntas visuais (VQA)

Os VLMs podem responder a perguntas sobre imagens ou vídeos, demonstrando suas habilidades de raciocínio visual. Isso pode ajudar na análise de imagens ou vídeo e pode até ser estendido a aplicações de IA agêntica.

No setor de transportes, por exemplo, os agentes de IA podem ser encarregados de analisar vídeos de inspeção rodoviária e identificar perigos como placas de sinalização danificadas, semáforos com defeito e buracos.

Em seguida, eles podem ser solicitados a produzir um relatório de manutenção descrevendo a localização e a descrição desses perigos.

Exemplos de VLMs

Os modelos de linguagem de visão estão avançando rapidamente, com potencial para serem tão difundidos quanto os atuais LLMs avançados.

Veja a seguir alguns exemplos de VLMs populares:

  • DeepSeek-VL2

  • Gemini 2.0 Flash

  • GPT-4o

  • Llama 3.2

  • NVLM

  • Qwen 2.5-VL

DeepSeek-VL2

O DeepSeek-VL2 é um modelo de linguagem de visão de código aberto com 4,5 bilhões de parâmetros da startup chinesa de IA DeepSeek. Ele é composto por um codificador de visão, um adaptador de linguagem de visão e o DeepSeekMoE LLM, que adota uma arquitetura de Combinação de Especialistas (MoE).

O DeepSeek-VL2 tem uma minúscula variante com 1 bilhão de parâmetros e uma pequena variante com 2,8 bilhões de parâmetros.2

Gemini 2.0 Flash

O Gemini 2.0 Flash faz parte do pacote de modelos do Google Gemini. As modalidades de input incluem áudio, imagem, texto e vídeo, com uma produção somente de texto. Uma funcionalidade de geração de imagens está a caminho.

GPT-4o

O GPT-4o da OpenAI é um modelo único treinado de ponta a ponta com dados de áudio, visão e texto. Ele pode aceitar uma combinação de inputs de áudio, imagem, texto e vídeo e produzir qualquer combinação de produções de áudio, imagem e texto, com a mesma rede neural processando todos os inputs e produções.

Sua versão menor, o GPT-4o mini, é compatível com inputs de imagens e texto e gera produções de texto.

Llama 3.2

Os modelos de código aberto do Llama 3.2 incluem 2 VLMs em tamanhos de parâmetros de 11 e 90 bilhões. Os inputs podem ser uma combinação de texto e imagens, com uma produção somente de texto.3

De acordo com a Meta, a arquitetura do VLM consiste em um codificador de imagem ViT, um adaptador de vídeo e um adaptador de imagem.4 O adaptador de imagem treinado separadamente tem uma série de camadas de atenção cruzada que alimentam as representações do codificador de imagem no LLM pré-treinado do Llama 3.1.3

NVLM

NVLM é uma família de modelos multimodais da NVIDIA. O NVLM-D é um modelo somente decodificador que alimenta os tokens de imagem diretamente no decodificador LLM. O NVLM-X emprega a atenção cruzada para processar tokens de imagem e é mais eficiente para lidar com imagens de alta resolução.

O NVLM-H adota uma arquitetura híbrida que combina as abordagens de somente decodificador e de atenção cruzada, melhorando a eficiência computacional e os recursos de raciocínio.5

Qwen 2.5-VL

O Qwen 2.5-VL é o principal modelo de linguagem de visão da empresa chinesa de computação em nuvem Alibaba Cloud. Ele vem em tamanhos de parâmetros de 3, 7 e 72 bilhões.

O modelo utiliza um codificador de visão ViT e o Qwen 2.5 LLM. Ele pode entender vídeos com mais de uma hora de duração e navegar por interfaces de desktop e smartphone.

Benchmarks dos modelos de linguagem de visão

Assim como os LLMs, os VLMs também têm seus próprios benchmarks. Cada benchmark pode ter sua própria tabela de classificação, mas também existem tabelas de classificação independentes, como a Tabela de classificação do OpenVLM hospedada no Hugging Face, que classificam modelos de linguagem de visão de código aberto com base em várias métricas.

Aqui estão alguns benchmarks comuns para modelos de linguagem visual:

  • O MathVista é um benchmark para o raciocínio matemático visual.

  • ● O MMBench tem um conjunto de perguntas de múltipla escolha que abrangem várias dimensões de avaliação, incluindo localização de objetos, reconhecimento óptico de caracteres (OCR) e muito mais.

  • ● O MMMU (Massive Multidiscipline Multimodal Understanding) contém desafios multimodais de múltipla escolha em vários assuntos para medir habilidades de conhecimento, percepção e raciocínio.

  • ● O MM-Vet avalia a integração de diferentes recursos do VLM, como geração de linguagem, consciência espacial e muito mais.

  • ● O OCRBench se concentra nas capacidades de OCR dos VLMs. Ele consiste em cinco componentes: VQA orientado a documentos, reconhecimento de expressões matemáticas manuscritas, extração de informações importantes, reconhecimento de texto e VQA centrado em texto de cenas.

  • ● O VQA é um dos primeiros benchmarks de VLM. O conjunto de dados abrange perguntas abertas sobre imagens. Outros derivados do VQA incluem GQA (resposta a perguntas em gráficos de cenas de imagens), OK-VQA (requer conhecimento externo para resposta a perguntas visuais), ScienceQA (resposta a perguntas científicas) e TextVQA (raciocínio visual baseado em texto em imagens).

O benchmarking de VLMs pode ser demorado, mas algumas ferramentas podem ajudar a simplificar o processo. O VLMEvalKit é um toolkit de avaliação de código aberto que permite a avaliação de VLMs com um comando. Outro pacote de avaliação é o LMMs-Eval, que também fornece uma interface de linha de comando para avaliação.

Desafios dos VLMs

Como em qualquer sistema de IA, os VLMs ainda precisam lidar com os riscos da IA. As empresas devem ter isso em mente ao considerar a integração de modelos de linguagem de visão nos seus fluxos de trabalho internos ou ao implementá-los em aplicações comerciais.

Aqui estão alguns desafios associados aos VLMs:

  • Viés

  • Custo e complexidade

  • Generalização

  • Alucinações

Viés

Os modelos de linguagem de visão podem aprender com os vieses que podem estar presentes nos dados do mundo real em que são treinados ou com os modelos pré-treinados sobre os quais são criados. O uso de diversas fontes de dados e a incorporação da supervisão humana em todo o processo podem ajudar a mitigar o viés.

Custo e complexidade

Os modelos de visão e de linguagem já são complexos por si só, portanto, mesclá-los pode aumentar ainda mais sua complexidade. Essa complexidade leva à necessidade de mais recursos de computação, o que dificulta a implementação de VLMs em grande escala. As empresas devem estar preparadas para investir nos recursos necessários para desenvolver, treinar e implementar esses modelos.

Generalização

Os VLMs podem falhar quando se trata de generalização, que é a capacidade de um modelo de se adaptar e fazer previsões precisas sobre dados novos e nunca vistos.

Um conjunto de dados equilibrado que inclua valores discrepantes ou casos extremos e empregue o aprendizado zero-shot pode permitir que os VLMs se adaptem a conceitos novos ou combinações atípicas de imagem-texto.

O benchmark LiveXIV da IBM para tarefas de compreensão visual de documentos também pode ajudar. O LiveXIV é um benchmark dinâmico que é atualizado automaticamente todos os meses e avalia os VLMs em perguntas e imagens que eles provavelmente nunca viram antes.

Alucinações

Os modelos de linguagem de visão podem ser propensos a alucinações de IA. A validação dos resultados desses modelos é um passo crucial para garantir que eles sejam precisos.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Serviços de IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

Todos os links levam para fora do site ibm.com

1 An Introduction to Vision-Language Modeling, arXiv, 27 de maio de 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 de dezembro de 2024.

3 Model Information, GitHub, 30 de setembro de 2024.

4 The Llama 3 Herd of Models , arXiv, 23 de novembro de 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 de outubro de 2024.