I modelli linguistici visivi (VLM) sono modelli di intelligenza artificiale (AI) che combinano funzionalità di computer vision ed elaborazione del linguaggio naturale (NLP).
I VLM imparano a mappare le relazioni tra dati testuali e dati visivi come immagini o video, consentendo a questi modelli di generare testo da input visivi o di comprendere i prompt nel contesto delle informazioni visive.
I VLM, o modelli linguistici visivi, combinano modelli linguistici di grandi dimensioni (LLM) con algoritmi di modelli visivi o di machine learning (ML) visivo.
In quanto sistemi di AI multimodale, i VLM accettano testo, immagini o video come input e producono testo come output, solitamente sotto forma di descrizioni di immagini o video, rispondendo a domande su un'immagine o identificando parti di un'immagine o oggetti in un video.
I modelli linguistici visivi sono in genere costituiti da 2 componenti chiave:
● Un encoder linguistico
● Un encoder visivo
Un encoder linguistico acquisisce il significato semantico e le associazioni contestuali tra parole e frasi e le trasforma in embedding che i modelli AI devono elaborare.
La maggior parte dei VLM utilizza un'architettura di reti neurali, nota come modello trasformativo, per il proprio encoder linguistico. Esempi di modelli trasformativi includono BERT (Bidirectional Encoder Representations from Transformers) di Google, uno dei primi foundation model alla base di molti LLM moderni e il trasformatore generativo pre-addestrato (GPT) di OpenAI.
Ecco una breve panoramica dell'architettura trasformativa:
● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate embedding che catturano la semantica e la posizione dei token nella sequenza di input.
● Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.
● I decoder utilizzano questo meccanismo di auto-attenzione e gli embedding degli encoder per generare la sequenza di output statisticamente più probabile.
Un encoder visivo estrae proprietà visive vitali come colori, forme e texture da un input o da un video e le converte in embedding che i modelli di machine learning possono elaborare.
Le versioni precedenti dei VLM utilizzavano algoritmi di deep learning come le reti neurali convoluzionali per l'estrazione delle caratteristiche. I modelli linguistici visivi più moderni utilizzano un trasformatore visivo (ViT) che applica elementi di un modello linguistico trasformativo.
Un ViT elabora un'immagine in patch, che tratta come sequenze, in modo simile ai token in un trasformatore linguistico. Il trasformatore visivo implementa quindi l'auto-attenzione su queste patch per creare una rappresentazione dell'input basata sul trasformatore.
Le strategie di addestramento dei modelli linguistici visivi prevedono l'allineamento e la fusione delle informazioni provenienti dagli encoder visivi e linguistici, affinché il VLM possa imparare a correlare le immagini con il testo e a prendere decisioni in base a entrambe le modalità.
L'addestramento VLM si basa solitamente su un mix di approcci:
● Apprendimento contrastivo
● Masking
● Addestramento di modelli generativi
● Modelli pre-addestrati
L'apprendimento contrastivo mappa gli embedding di immagini e testo da entrambi gli encoder in uno spazio di embedding congiunto o condiviso. Il VLM è addestrato su set di dati di coppie immagine-testo e impara a ridurre al minimo la distanza tra gli embedding di coppie corrispondenti e ad aumentarla al massimo per le coppie non corrispondenti.
Un noto algoritmo di apprendimento contrastivo è CLIP (Contrastive Language-Image Pretraining). CLIP è stato addestrato su 400 milioni di coppie di immagini e didascalie prese da Internet e ha dimostrato un'elevata precisione di classificazione zero-shot .1
Il masking è un'altra tecnica di addestramento in cui i modelli linguistici visivi imparano a prevedere parti di un testo o di un'immagine di input oscurate in modo casuale. Nel masked language modeling, i VLM imparano a riempire le parole mancanti in una didascalia di testo in base a un'immagine non mascherata.
Nel masked image modeling, i VLM imparano a ricostruire i pixel nascosti in un'immagine in base a una didascalia non mascherata.
Un esempio di modello che utilizza il masking è FLAVA (Foundational Language And Vision Alignment). FLAVA utilizza un trasformatore visivo come encoder di immagini e un'architettura trasformativa sia per l'encoder linguistico che per l'encoder multimodale.
L'encoder multimodale applica un meccanismo di attenzione incrociata per integrare informazioni testuali e visive. L'addestramento di FLAVA include il masked modeling e l'apprendimento contrastivo.1
L'addestramento del modello generativo per i VLM implica l'apprendimento finalizzato a generare nuovi dati. La generazione text-to-image produce immagini dal testo di input, mentre la generazione image-to-text produce testo, come didascalie, descrizioni delle immagini o riassunti, da un'immagine di input.
Esempi di modelli text-to-image includono modelli di diffusione, come Imagen di Google, Midjourney, DALL-E di OpenAI (a partire da DALL-E 2) e Stable Diffusion di Stability AI.
Poiché l'addestramento di modelli linguistici visivi da zero può essere costoso a livello di risorse e denaro, i VLM possono essere creati partendo da modelli preaddestrati.
È possibile utilizzare un LLM preaddestrato e un encoder visivo preaddestrato, con un livello di rete di mappatura aggiunto che allinea o proietta la rappresentazione visiva di un'immagine nello spazio di input dell'LLM.
LLava (Large Language and Vision Assistant) è un esempio di VLM sviluppato a partire da modelli preaddestrati. Questo modello multimodale utilizza Vicuna LLM e CLIP ViT come encoder visivi, unendone gli output in uno spazio dimensionale condiviso attraverso un proiettore lineare.1
Raccogliere dati di addestramento di alta qualità per i VLM può essere noioso, tuttavia esistono set di dati che possono essere utilizzati per il pre-addestramento, l'ottimizzazione e il fine-tuning per attività a valle più specifiche.
Ad esempio, ImageNet contiene milioni di immagini annotate, mentre COCO ha migliaia di immagini etichettate per didascalie su larga scala, rilevamento di oggetti e segmentazione. Allo stesso modo, il set di dati LAION è costituito da miliardi di coppie image-text multilingue.
I VLM possono colmare il divario tra informazioni visive e linguistiche. Ciò che in precedenza richiedeva due modelli AI separati per ciascuna modalità può ora essere riunito in un modello.
I VLM possono essere utilizzati per una serie di attività del linguaggio visivo:
● Didascalie e riassunti
● Generazione di immagini
● Ricerca e recupero dell'immagine
● Segmentazione delle immagini
● Rilevamento degli oggetti
● Risposta visiva alle domande (VQA)
I modelli linguistici visivi possono generare didascalie o descrizioni dettagliate delle immagini. Possono anche riassumere video e informazioni visive nei documenti, come immagini mediche per le strutture sanitarie o grafici per la riparazione delle attrezzature negli stabilimenti produttivi.
I generatori text-to-image come DALL-E, Imagen, Midjourney e Stable Diffusion possono aiutare a creare arte o immagini da abbinare ai contenuti scritti. Le aziende possono utilizzare questi strumenti anche durante le fasi di progettazione e prototipazione, così da migliorare la visualizzazione delle idee di prodotto.
I VLM possono eseguire ricerche in grandi gallerie di immagini o database video e recuperare foto o video pertinenti in base a una query in linguaggio naturale. Ciò può migliorare l'esperienza dei clienti sui siti di e-commerce, ad esempio aiutandoli a trovare un particolare articolo o a navigare in un vasto catalogo.
Un modello linguistico visivo può partizionare un'immagine in segmenti in base alle caratteristiche spaziali che ha appreso ed estratto dall'immagine. Il VLM può quindi fornire descrizioni testuali di questi segmenti.
Può anche generare riquadri di delimitazione per localizzare oggetti o fornire altre forme di annotazione, come etichette o evidenziazioni colorate per specificare sezioni di un'immagine relative a una query.
Questo può essere utile per la manutenzione predittiva, ad esempio, aiutando ad analizzare immagini o video negli stabilimenti per rilevare potenziali difetti delle attrezzature in tempo reale.
I modelli linguistici visivi possono riconoscere e classificare gli oggetti all'interno di un'immagine e fornire descrizioni contestuali come la posizione di un oggetto rispetto ad altri elementi visivi.
Il rilevamento degli oggetti può essere utilizzato nella robotica, ad esempio, consentendo ai robot di conoscere meglio il loro ambiente e di comprendere le istruzioni visive.
I VLM possono rispondere a domande su immagini o video, dimostrando capacità di ragionamento visivo. Questo può aiutare nell'analisi di immagini o video e può anche essere esteso ad applicazioni di agentic AI.
Nel settore dei trasporti, ad esempio, gli agenti AI possono avere il compito di analizzare i video delle ispezioni stradali e di identificare pericoli come segnaletica danneggiata, semafori difettosi e buche.
Quindi, può essere richiesto loro di produrre un rapporto di manutenzione che descriva l'ubicazione e la descrizione di tali pericoli.
I modelli linguistici visivi stanno avanzando rapidamente e potrebbero potenzialmente diffondersi quanto gli attuali LLM avanzati.
Ecco alcuni dei VLM più utilizzati:
● DeepSeek-VL2
● Gemini 2.0 Flash
● GPT-4o
● Llama 3.2
● NVLM
● Qwen 2.5-VL
DeepSeek-VL2 è un modello linguistico visivo open source con 4,5 miliardi di parametri, realizzato dalla startup cinese DeepSeek. È composto da un encoder visivo, un adattatore per il linguaggio visivo e il DeepSeekMoe LLM, che adotta un'architettura Mixture of Experts (MoE).
DeepSeek-VL2 ha una variante piccolissima, con 1 miliardo di parametri, e una variante piccola, con 2,8 miliardi di parametri.2
Gemini 2.0 Flash fa parte della suite di modelli Google Gemini. Le modalità di input includono audio, immagini, testo e video, con un output di solo testo. È in arrivo una funzionalità di generazione delle immagini.
GPT-4o di OpenAI è un modello unico, addestrato end-to-end su dati audio, visivi e di testo. Può accettare una combinazione di input audio, immagini, testo e video e produrre qualsiasi combinazione di output audio, immagini e testo, attraverso un'unica rete neurale che elabora tutti gli input e gli output.
La sua controparte più piccola, GPT-4o mini, supporta input di immagini e testo e genera output di testo.
I modelli open source Llama 3.2 includono 2 VLM con dimensioni di parametri da 11 e 90 miliardi. Gli input possono essere una combinazione di testo e immagini, con un output di solo testo.3
Secondo Meta, l'architettura VLM è composta da un encoder di immagini ViT, un adattatore video e un adattatore di immagini.4 L'adattatore di immagini, addestrato separatamente, dispone di una serie di livelli di attenzione trasversale che inseriscono le rappresentazioni dell'encoder di immagini nell'LLM Llama 3.1 pre-addestrato.3
NVLM è una famiglia di modelli multimodali di NVIDIA. NVLM-D è un modello decoder-only che alimenta i token di immagini direttamente nel decoder dell'LLM. NVLM-X utilizza l'attenzione incrociata per elaborare i token di immagini ed è più efficiente per la gestione delle immagini ad alta risoluzione.
NVLM-H adotta un'architettura ibrida che combina gli approcci decoder-only e di attenzione incrociata, migliorando l'efficienza computazionale e le capacità di ragionamento.5
Qwen 2.5-VL è il modello linguistico visivo di punta della società cinese di cloud computing Alibaba Cloud. Viene fornito in dimensioni di parametri pari a 3, 7 e 72 miliardi.
Il modello utilizza un encoder visivo ViT e il Qwen 2.5 LLM. È in grado di comprendere video della durata di oltre un'ora e di navigare nelle interfacce desktop e smartphone.
Come gli LLM, anche i VLM hanno i propri benchmark. Ogni benchmark potrebbe avere la propria classifica, ma ci sono anche classifiche indipendenti come la OpenVLM Leaderboard su Hugging Face, che classifica i modelli linguistici visivi open source in base a varie metriche.
Di seguito sono riportati alcuni benchmark comuni per i modelli linguistici visivi:
● MathVista è un benchmark per il ragionamento matematico visivo.
● MMBench contiene una raccolta di domande a risposta multipla che coprono diverse dimensioni di valutazione, tra cui la localizzazione degli oggetti, il riconoscimento ottico dei caratteri (OCR) e molto altro.
● MMMU (Massive Multidiscipline Multimodal Understanding) contiene sfide multimodali a scelta multipla su varie materie per misurare la conoscenza, la percezione e le capacità di ragionamento.
● MM-Vet valuta l'integrazione di diverse funzionalità VLM, come la generazione del linguaggio, la consapevolezza spaziale e molto altro.
● OCRBench si concentra sulle capacità OCR dei VLM. Contiene 5 componenti: VQA orientata al documento, riconoscimento dell'espressione matematica scritta a mano, estrazione delle informazioni chiave, riconoscimento del testo e VQA basata sul testo della scena.
● VQA è uno dei primi benchmark VLM. Il set di dati include domande aperte sulle immagini. Altri derivati di VQA includono GQA (risposta alle domande sui grafici delle scene di immagini), OK-VQA (richiede conoscenze esterne per la risposta visiva alle domande), ScienceQA (risposta a domande scientifiche) e TextVQA (ragionamento visivo basato sul testo nelle immagini).
Il benchmarking dei VLM può richiedere molto tempo, ma alcuni strumenti possono aiutare a semplificare il processo. VLMEvalKit è un toolkit di valutazione open source che consente la valutazione dei VLM con un solo comando. Un'altra suite di valutazione è LMMS-Eval, che fornisce anche un'interfaccia a riga di comando per la valutazione.
Come per qualsiasi sistema AI, anche i VLM devono far fronte ai rischi dell'AI. Le aziende devono tenerlo presente quando valutano l'idea di integrare i modelli linguistici visivi nei loro workflow interni o di implementarli per applicazioni commerciali.
Ecco alcune delle problematiche associate ai VLM:
● Bias
● Costi e complessità
● Generalizzazione
● Allucinazioni
I modelli linguistici visivi possono apprendere dai bias che potrebbero essere presenti nei dati del mondo reale su cui sono addestrati o dai modelli pre-addestrati su cui sono basati. L'utilizzo di diverse fonti di dati e l'integrazione della supervisione umana durante tutto il processo può aiutare a ridurre i bias.
I modelli visivi e i modelli linguistici sono già complessi di per sé, quindi la loro fusione può aumentarne ulteriormente la complessità. Questa complessità comporta la necessità di maggiori risorse di elaborazione, rendendo difficile l'implementazione di VLM su larga scala. Le aziende devono essere pronte a investire nelle risorse necessarie per sviluppare, addestrare e distribuire questi modelli.
I VLM potrebbero vacillare davanti alla generalizzazione, ovvero la capacità di un modello di adattarsi e fare previsioni accurate su dati nuovi e mai visti prima.
Un set di dati equilibrato, che include outlier o edge case e utilizza l'apprendimento zero-shot, può consentire ai VLM di adattarsi a nuovi concetti o a combinazioni atipiche image-text.
Il benchmark LiveXiv di IBM può essere utile per le attività di comprensione visiva dei documenti. LiveXIV è un benchmark dinamico che viene aggiornato automaticamente ogni mese e che valuta i VLM in base a domande e immagini che probabilmente non hanno mai visto prima.
I modelli linguistici visivi possono essere inclini alle allucinazioni AI. La convalida dei risultati di questi modelli rappresenta un passaggio cruciale per assicurarsi che siano effettivamente accurati.
Tutti i link sono esterni a ibm.com
1 An Introduction to Vision-Language Modeling, arXiv, 27 maggio 2024.
2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 dicembre 2024.
3 Model Information, GitHub, 30 settembre 2024.
4 The Llama 3 Herd of Models , arXiv, 23 novembre 2024.
5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 ottobre 2024.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.