Cosa sono i modelli linguistici visivi (VLMs)?

25 Febbraio 2025

Autori

Cole Stryker

Editorial Lead, AI Models

Gather

Cosa sono i modelli linguistici visivi (VLMs)?

I modelli linguistici visivi (VLM) sono modelli di intelligenza artificiale (AI) che combinano funzionalità di computer vision ed elaborazione del linguaggio naturale (NLP).

I VLM imparano a mappare le relazioni tra dati testuali e dati visivi come immagini o video, consentendo a questi modelli di generare testo da input visivi o di comprendere i prompt nel contesto delle informazioni visive.

I VLM, o modelli linguistici visivi, combinano modelli linguistici di grandi dimensioni (LLM) con algoritmi di modelli visivi o di machine learning (ML) visivo.

In quanto sistemi di AI multimodale, i VLM accettano testo, immagini o video come input e producono testo come output, solitamente sotto forma di descrizioni di immagini o video, rispondendo a domande su un'immagine o identificando parti di un'immagine o oggetti in un video.

Elementi di un modello linguistico visivo

I modelli linguistici visivi sono in genere costituiti da 2 componenti chiave:

    ● Un encoder linguistico

    ● Un encoder visivo

Encoder linguistico

Un encoder linguistico acquisisce il significato semantico e le associazioni contestuali tra parole e frasi e le trasforma in embedding che i modelli AI devono elaborare.

La maggior parte dei VLM utilizza un'architettura di reti neurali, nota come modello trasformativo, per il proprio encoder linguistico. Esempi di modelli trasformativi includono BERT (Bidirectional Encoder Representations from Transformers) di Google, uno dei primi foundation model alla base di molti LLM moderni e il trasformatore generativo pre-addestrato (GPT) di OpenAI.

Ecco una breve panoramica dell'architettura trasformativa:

    ● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate  embedding che catturano la semantica e la posizione dei token nella sequenza di input.

    ● Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.

    ● I decoder utilizzano questo meccanismo di auto-attenzione e gli embedding degli encoder per generare la sequenza di output statisticamente più probabile.

Encoder visivo

Un encoder visivo estrae proprietà visive vitali come colori, forme e texture da un input o da un video e le converte in embedding che i modelli di machine learning possono elaborare.

Le versioni precedenti dei VLM utilizzavano algoritmi di deep learning come le reti neurali convoluzionali per l'estrazione delle caratteristiche. I modelli linguistici visivi più moderni utilizzano un trasformatore visivo (ViT) che applica elementi di un modello linguistico trasformativo.

Un ViT elabora un'immagine in patch, che tratta come sequenze, in modo simile ai token in un trasformatore linguistico. Il trasformatore visivo implementa quindi l'auto-attenzione su queste patch per creare una rappresentazione dell'input basata sul trasformatore.

Addestramento di modelli linguistici visivi

Le strategie di addestramento dei modelli linguistici visivi prevedono l'allineamento e la fusione delle informazioni provenienti dagli encoder visivi e linguistici, affinché il VLM possa imparare a correlare le immagini con il testo e a prendere decisioni in base a entrambe le modalità.

L'addestramento VLM si basa solitamente su un mix di approcci:

    ● Apprendimento contrastivo

    ● Masking

    ● Addestramento di modelli generativi

    ● Modelli pre-addestrati

Apprendimento contrastivo

L'apprendimento contrastivo mappa gli embedding di immagini e testo da entrambi gli encoder in uno spazio di embedding congiunto o condiviso. Il VLM è addestrato su set di dati di coppie immagine-testo e impara a ridurre al minimo la distanza tra gli embedding di coppie corrispondenti e ad aumentarla al massimo per le coppie non corrispondenti.

Un noto algoritmo di apprendimento contrastivo è CLIP (Contrastive Language-Image Pretraining). CLIP è stato addestrato su 400 milioni di coppie di immagini e didascalie prese da Internet e ha dimostrato un'elevata precisione di classificazione zero-shot .1

Mascheramento

Il masking è un'altra tecnica di addestramento in cui i modelli linguistici visivi imparano a prevedere parti di un testo o di un'immagine di input oscurate in modo casuale. Nel masked language modeling, i VLM imparano a riempire le parole mancanti in una didascalia di testo in base a un'immagine non mascherata.

Nel masked image modeling, i VLM imparano a ricostruire i pixel nascosti in un'immagine in base a una didascalia non mascherata.

Un esempio di modello che utilizza il masking è FLAVA (Foundational Language And Vision Alignment). FLAVA utilizza un trasformatore visivo come encoder di immagini e un'architettura trasformativa sia per l'encoder linguistico che per l'encoder multimodale.

L'encoder multimodale applica un meccanismo di attenzione incrociata per integrare informazioni testuali e visive. L'addestramento di FLAVA include il masked modeling e l'apprendimento contrastivo.1

Addestramento del modello generativo

L'addestramento del modello generativo per i VLM implica l'apprendimento finalizzato a generare nuovi dati. La generazione text-to-image produce immagini dal testo di input, mentre la generazione image-to-text produce testo, come didascalie, descrizioni delle immagini o riassunti, da un'immagine di input.

Esempi di modelli text-to-image includono modelli di diffusione, come Imagen di Google, Midjourney, DALL-E di OpenAI (a partire da DALL-E 2) e Stable Diffusion di Stability AI.

Modelli preaddestrati

Poiché l'addestramento di modelli linguistici visivi da zero può essere costoso a livello di risorse e denaro, i VLM possono essere creati partendo da modelli preaddestrati.

È possibile utilizzare un LLM preaddestrato e un encoder visivo preaddestrato, con un livello di rete di mappatura aggiunto che allinea o proietta la rappresentazione visiva di un'immagine nello spazio di input dell'LLM.

LLava (Large Language and Vision Assistant) è un esempio di VLM sviluppato a partire da modelli preaddestrati. Questo modello multimodale utilizza Vicuna LLM e CLIP ViT come encoder visivi, unendone gli output in uno spazio dimensionale condiviso attraverso un proiettore lineare.1

Raccogliere dati di addestramento di alta qualità per i VLM può essere noioso, tuttavia esistono set di dati che possono essere utilizzati per il pre-addestramento, l'ottimizzazione e il fine-tuning per attività a valle più specifiche.

Ad esempio, ImageNet contiene milioni di immagini annotate, mentre COCO ha migliaia di immagini etichettate per didascalie su larga scala, rilevamento di oggetti e segmentazione. Allo stesso modo, il set di dati LAION è costituito da miliardi di coppie image-text multilingue.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Casi d'uso dei modelli linguistici visivi

I VLM possono colmare il divario tra informazioni visive e linguistiche. Ciò che in precedenza richiedeva due modelli AI separati per ciascuna modalità può ora essere riunito in un modello.

I VLM possono essere utilizzati per una serie di attività del linguaggio visivo:

    ● Didascalie e riassunti

    ● Generazione di immagini

    ● Ricerca e recupero dell'immagine

    ● Segmentazione delle immagini

    ● Rilevamento degli oggetti

    ● Risposta visiva alle domande (VQA)

Didascalie e riassunti

I modelli linguistici visivi possono generare didascalie o descrizioni dettagliate delle immagini. Possono anche riassumere video e informazioni visive nei documenti, come immagini mediche per le strutture sanitarie o grafici per la riparazione delle attrezzature negli stabilimenti produttivi.

Generazione di immagini

I generatori text-to-image come DALL-E, Imagen, Midjourney e Stable Diffusion possono aiutare a creare arte o immagini da abbinare ai contenuti scritti. Le aziende possono utilizzare questi strumenti anche durante le fasi di progettazione e prototipazione, così da migliorare la visualizzazione delle idee di prodotto.

Ricerca e recupero di immagini

I VLM possono eseguire ricerche in grandi gallerie di immagini o database video e recuperare foto o video pertinenti in base a una query in linguaggio naturale. Ciò può migliorare l'esperienza dei clienti sui siti di e-commerce, ad esempio aiutandoli a trovare un particolare articolo o a navigare in un vasto catalogo.

Segmentazione delle immagini

Un modello linguistico visivo può partizionare un'immagine in segmenti in base alle caratteristiche spaziali che ha appreso ed estratto dall'immagine. Il VLM può quindi fornire descrizioni testuali di questi segmenti.

Può anche generare riquadri di delimitazione per localizzare oggetti o fornire altre forme di annotazione, come etichette o evidenziazioni colorate per specificare sezioni di un'immagine relative a una query.

Questo può essere utile per la manutenzione predittiva, ad esempio, aiutando ad analizzare immagini o video negli stabilimenti per rilevare potenziali difetti delle attrezzature in tempo reale.

Rilevamento degli oggetti

I modelli linguistici visivi possono riconoscere e classificare gli oggetti all'interno di un'immagine e fornire descrizioni contestuali come la posizione di un oggetto rispetto ad altri elementi visivi.

Il rilevamento degli oggetti può essere utilizzato nella robotica, ad esempio, consentendo ai robot di conoscere meglio il loro ambiente e di comprendere le istruzioni visive.

Risposta visiva alle domande (VQA)

I VLM possono rispondere a domande su immagini o video, dimostrando capacità di ragionamento visivo. Questo può aiutare nell'analisi di immagini o video e può anche essere esteso ad applicazioni di agentic AI.

Nel settore dei trasporti, ad esempio, gli agenti AI possono avere il compito di analizzare i video delle ispezioni stradali e di identificare pericoli come segnaletica danneggiata, semafori difettosi e buche.

Quindi, può essere richiesto loro di produrre un rapporto di manutenzione che descriva l'ubicazione e la descrizione di tali pericoli.

Esempi di VLM

I modelli linguistici visivi stanno avanzando rapidamente e potrebbero potenzialmente diffondersi quanto gli attuali LLM avanzati.

Ecco alcuni dei VLM più utilizzati:

    ● DeepSeek-VL2

    ● Gemini 2.0 Flash

    ● GPT-4o

    ● Llama 3.2

    ● NVLM

    ● Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 è un modello linguistico visivo open source con 4,5 miliardi di parametri, realizzato dalla startup cinese DeepSeek. È composto da un encoder visivo, un adattatore per il linguaggio visivo e il DeepSeekMoe LLM, che adotta un'architettura Mixture of Experts (MoE).

DeepSeek-VL2 ha una variante piccolissima, con 1 miliardo di parametri, e una variante piccola, con 2,8 miliardi di parametri.2

Gemini 2.0 Flash

Gemini 2.0 Flash fa parte della suite di modelli  Google Gemini. Le modalità di input includono audio, immagini, testo e video, con un output di solo testo. È in arrivo una funzionalità di generazione delle immagini.

GPT-4o

GPT-4o di OpenAI è un modello unico, addestrato end-to-end su dati audio, visivi e di testo. Può accettare una combinazione di input audio, immagini, testo e video e produrre qualsiasi combinazione di output audio, immagini e testo, attraverso un'unica rete neurale che elabora tutti gli input e gli output.

La sua controparte più piccola, GPT-4o mini, supporta input di immagini e testo e genera output di testo.

Llama 3.2

I modelli open source Llama 3.2 includono 2 VLM con dimensioni di parametri da 11 e 90 miliardi. Gli input possono essere una combinazione di testo e immagini, con un output di solo testo.3

Secondo Meta, l'architettura VLM è composta da un encoder di immagini ViT, un adattatore video e un adattatore di immagini.4 L'adattatore di immagini, addestrato separatamente, dispone di una serie di livelli di attenzione trasversale che inseriscono le rappresentazioni dell'encoder di immagini nell'LLM Llama 3.1 pre-addestrato.3

NVLM

NVLM è una famiglia di modelli multimodali di NVIDIA. NVLM-D è un modello decoder-only che alimenta i token di immagini direttamente nel decoder dell'LLM. NVLM-X utilizza l'attenzione incrociata per elaborare i token di immagini ed è più efficiente per la gestione delle immagini ad alta risoluzione.

NVLM-H adotta un'architettura ibrida che combina gli approcci decoder-only e di attenzione incrociata, migliorando l'efficienza computazionale e le capacità di ragionamento.5

Qwen 2.5-VL

Qwen 2.5-VL è il modello linguistico visivo di punta della società cinese di cloud computing Alibaba Cloud. Viene fornito in dimensioni di parametri pari a 3, 7 e 72 miliardi.

Il modello utilizza un encoder visivo ViT e il Qwen 2.5 LLM. È in grado di comprendere video della durata di oltre un'ora e di navigare nelle interfacce desktop e smartphone.

Benchmark dei modelli linguistici visivi

Come gli LLM, anche i VLM hanno i propri benchmark. Ogni benchmark potrebbe avere la propria classifica, ma ci sono anche classifiche indipendenti come la OpenVLM Leaderboard su Hugging Face, che classifica i modelli linguistici visivi open source in base a varie metriche.

Di seguito sono riportati alcuni benchmark comuni per i modelli linguistici visivi:

    ● MathVista è un benchmark per il ragionamento matematico visivo.

    ● MMBench contiene una raccolta di domande a risposta multipla che coprono diverse dimensioni di valutazione, tra cui la localizzazione degli oggetti, il riconoscimento ottico dei caratteri (OCR) e molto altro.

    ● MMMU (Massive Multidiscipline Multimodal Understanding) contiene sfide multimodali a scelta multipla su varie materie per misurare la conoscenza, la percezione e le capacità di ragionamento.

    ● MM-Vet valuta l'integrazione di diverse funzionalità VLM, come la generazione del linguaggio, la consapevolezza spaziale e molto altro.

    ● OCRBench si concentra sulle capacità OCR dei VLM. Contiene 5 componenti: VQA orientata al documento, riconoscimento dell'espressione matematica scritta a mano, estrazione delle informazioni chiave, riconoscimento del testo e VQA basata sul testo della scena.

    ● VQA è uno dei primi benchmark VLM. Il set di dati include domande aperte sulle immagini. Altri derivati di VQA includono GQA (risposta alle domande sui grafici delle scene di immagini), OK-VQA (richiede conoscenze esterne per la risposta visiva alle domande), ScienceQA (risposta a domande scientifiche) e TextVQA (ragionamento visivo basato sul testo nelle immagini).

Il benchmarking dei VLM può richiedere molto tempo, ma alcuni strumenti possono aiutare a semplificare il processo. VLMEvalKit è un toolkit di valutazione open source che consente la valutazione dei VLM con un solo comando. Un'altra suite di valutazione è LMMS-Eval, che fornisce anche un'interfaccia a riga di comando per la valutazione.

Le problematiche dei VLM

Come per qualsiasi sistema AI, anche i VLM devono far fronte ai rischi dell'AI. Le aziende devono tenerlo presente quando valutano l'idea di integrare i modelli linguistici visivi nei loro workflow interni o di implementarli per applicazioni commerciali.

Ecco alcune delle problematiche associate ai VLM:

    ● Bias

    ● Costi e complessità

    ●  Generalizzazione

    ● Allucinazioni

Distorsione

I modelli linguistici visivi possono apprendere dai bias che potrebbero essere presenti nei dati del mondo reale su cui sono addestrati o dai modelli pre-addestrati su cui sono basati. L'utilizzo di diverse fonti di dati e l'integrazione della supervisione umana durante tutto il processo può aiutare a ridurre i bias.

Costo e complessità

I modelli visivi e i modelli linguistici sono già complessi di per sé, quindi la loro fusione può aumentarne ulteriormente la complessità. Questa complessità comporta la necessità di maggiori risorse di elaborazione, rendendo difficile l'implementazione di VLM su larga scala. Le aziende devono essere pronte a investire nelle risorse necessarie per sviluppare, addestrare e distribuire questi modelli.

Generalizzazione

I VLM potrebbero vacillare davanti alla generalizzazione, ovvero la capacità di un modello di adattarsi e fare previsioni accurate su dati nuovi e mai visti prima.

Un set di dati equilibrato, che include outlier o edge case e utilizza l'apprendimento zero-shot, può consentire ai VLM di adattarsi a nuovi concetti o a combinazioni atipiche image-text.

Il benchmark LiveXiv di IBM può essere utile per le attività di comprensione visiva dei documenti. LiveXIV è un benchmark dinamico che viene aggiornato automaticamente ogni mese e che valuta i VLM in base a domande e immagini che probabilmente non hanno mai visto prima.

Allucinazioni

I modelli linguistici visivi possono essere inclini alle allucinazioni AI. La convalida dei risultati di questi modelli rappresenta un passaggio cruciale per assicurarsi che siano effettivamente accurati.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Note a piè di pagina

Tutti i link sono esterni a ibm.com

1 An Introduction to Vision-Language Modeling, arXiv, 27 maggio 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 dicembre 2024.

3 Model Information, GitHub, 30 settembre 2024.

4 The Llama 3 Herd of Models , arXiv, 23 novembre 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 ottobre 2024.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live