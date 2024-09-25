Artificial Intelligence Open source AI for the Enterprise Tecnologia

I modelli Meta Llama 3.2 sono ora disponibili su watsonx, compresi i modelli multimodali 11B e 90B

Vista aerea di un team che collabora

IBM annuncia la disponibilità di diversi modelli Llama 3.2 su watsonx.ai, lo studio enterprise di IBM per gli sviluppatori di AI, in seguito al lancio della raccolta Llama 3.2 di modelli linguistici di grandi dimensioni (LLM) multilingue pre-addestrati e ottimizzati per le istruzioni presso MetaConnect in data odierna.

In particolare, Llama 3.2 segna la prima incursione di Meta nell'AI multimodale: il rilascio include due modelli, nelle dimensioni 11B e 90B, in grado di ricevere immagini come input. I modelli Llama 3.2 90B Vision e 11B Vision personalizzati in base alle istruzioni sono immediatamente disponibili su watsonx.ai tramite SaaS.

Su watsonx.ai sono arrivati anche i modelli Llama più piccoli realizzati fino ad oggi: due LLM con ingresso e uscita testo nelle dimensioni 1B e 3B. Tutti i modelli Llama 3.2 supportano contesti di lunghezza elevata (fino a 128K token) e sono ottimizzati per un'inferenza rapida ed efficiente con attenzione alle query raggruppate. Meta ha specificato che sono ufficialmente supportate le lingue inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese, ma fa notare che Llama 3.2 è stato addestrato su altre lingue oltre a queste 8 e gli sviluppatori potrebbero mettere a punto i modelli Llama 3.2 per tali lingue.

Queste ultime aggiunte di Meta si uniscono all'ampia libreria di foundation model disponibili in watsonx.ai, in linea con la strategia aperta e multi-modello di IBM verso l'AI generativa

“Rendendo disponibili i nostri ultimi modelli Llama 3.2 su watsonx, un bacino molto più ampio di aziende potrà trarre beneficio da queste innovazioni e implementare i nostri nuovi modelli senza problemi, alle proprie condizioni e in ambienti hybrid cloud", afferma Ahmad Al-Dahle, Head of GenAI, Meta. “In Meta riteniamo essenziale adattare le soluzioni AI alle esigenze specifiche di ogni organizzazione e potenziarle per scalare le implementazioni Llama con facilità. La nostra partnership con IBM, un'organizzazione che condivide il nostro impegno per apertura, sicurezza, fiducia e trasparenza, ci permette di fare proprio questo."

Continua a leggere per maggiori dettagli sulla collezione Llama 3.2, incluse nuove funzionalità multimodali, nuove opportunità di implementazione su dispositivi mobili e altri dispositivi edge, caratteristiche di sicurezza aggiornate e altro ancora.

 

I primi modelli multimodali di Llama

A differenza dei predecessori LLM solo testuali nella serie Llama, Llama 3.2 11B e Llama 3.2 90B hanno esteso le funzionalità per includere casi d'uso con immagini in ingresso e testo in uscita, come la comprensione a livello di documento, l'interpretazione dei grafici e delle didascalie delle immagini. Gli sviluppatori hanno ora accesso a potenti modelli di ragionamento visivo che si avvicinano alle funzionalità avanzate dei modelli chiusi, offrendo al contempo la piena flessibilità e personalizzazione dei modelli aperti.

I nuovi LLM multimodali Llama 3.2 vision possono ragionare su immagini ad alta risoluzione fino a 1120x1120 pixel, permettendone l'uso per attività di computer vision tra cui classificazione, rilevamento e identificazione di oggetti, trascrizione immagine-testo (inclusa la scrittura a mano) tramite riconoscimento ottico dei caratteri (OCR), Q&A contestuali, estrazione e elaborazione dati, confronto immagini e assistenza visiva personale.  

Chiedere a Llama in watsonx di dedurre a quale sport gioca una ragazza, in base alla sua foto (in cui tiene in mano un pallone da basket e indossa un tutù)

Questo approccio alla multimodalità presenta 3 vantaggi fondamentali.

  • Messa a punto semplificata: mantiene invariati i parametri dell'LLM base, preservando la conoscenza generale del modello e assicurando che i notevoli progressi ottenuti con la versione Llama 3.1 rimangano in atto: Llama 3.2 11B e 90B hanno mostrato lievi miglioramenti nei benchmark di matematica, ragionamento e cultura generale rispetto alle loro controparti Llama 3.1 8B e 70B. Questo presumibilmente semplifica anche il processo di messa a punto dei modelli multimodali Llama 3.2, permettendo la personalizzazione delle prestazioni linguistiche senza il timore di conseguenze indesiderate sulle capacità di ragionamento delle immagini.

  • Addestramento altamente efficiente: è notevolmente efficiente rispetto ai tipici paradigmi di addestramento multimodale, che spesso devono aggiornare miliardi di parametri del modello. I ricercatori alle spalle di LLaMa-Adapter V2, ad esempio, hanno osservato che i parametri focalizzati sull'immagine rappresentano solo lo 0,04% dell'intero modello. Il pre-addestramento di Llama 3.2-Vision su un set di dati di 6 miliardi di coppie di immagini e testo ha richiesto un totale di 2,02 milioni di ore GPU per entrambi i modelli, una quantità di calcolo molto minore rispetto alle 7,0 milioni di ore GPU spese solo per il pre-addestramento di Llama 3.1 70B.

  • Velocità ed efficienza dei costi: permette ai modelli Llama 3.2 di attingere a risorse di calcolo aggiuntive per ragionamento dell'immagine solo quando l'input lo richiede. Questo sottolinea l'impegno di Meta verso la velocità di output e l'efficienza dei costi leader nel settore, consentendo implementazioni efficienti su larga scala e applicazioni in tempo reale per casi d'uso sensibili al tempo, come i chatbot e la generazione dinamica di contenuti.

Entrambi i modelli ottengono buone prestazioni nei benchmark multimodali comuni per i modelli linguistici di visione (VLM), avvicinandosi ai punteggi più elevati per i modelli aperti e spesso rivaleggiando con i modelli chiusi all'avanguardia. Ad esempio, l'istruzione ottimizzata per Llama 3.2 90B-Vision corrisponde a GPT-4o di OpenAI sulla comprensione dei grafici (ChartQA) e supera sia Claude 3 Opus di Anthropic che Gemini 1.5 Pro di Google nell'interpretazione dei diagrammi scientifici (AI2D).1

Allo stesso modo, Llama 3.2 11B-Vision ha ottenuto punteggi di benchmark competitivi per la sua categoria di peso, superando Gemini 1.5 Flash 8B nelle domande e risposte del documento (DocVQA), superando Claude 3 Haiku e Claude 3 Sonnet su AI2D, ChartQA e ragionamento matematico visivo (MathVista), e mantenendo il passo con Pixtral 12B e Qwen2-VL 7B nelle domande e risposte visive sui documenti (VQAv2) in generale.2
 

Modelli di Llama leggeri che possono essere eseguiti quasi ovunque

La collezione Llama 3.2 comprende anche varianti con parametri 1B e 3B, che rappresentano i modelli Llama più piccoli finora realizzati.

Le dimensioni ridotte del modello e i requisiti di elaborazione e memoria di conseguenza modesti consentono a Llama di essere eseguito localmente sulla maggior parte dell'hardware, compresi i dispositivi mobili e altri dispositivi edge. Queste caratteristiche conferiscono a Llama 3.2 1B e Llama 3.2 3B il potenziale per innescare un'ondata di innovazione nelle applicazioni locali e nell'AI agentica.  Sebbene i vantaggi di questi modelli compatti e performanti siano molti, forse i due più importanti sono i seguenti:

  • L'opportunità di funzionare localmente a una latenza molto bassa su hardware anche modesti, inclusi gli smartphone

  • La capacità corrispondente di preservare la privacy dell'utente e di eludere i problemi di cybersecurity eliminando la necessità di trasmettere dati sensibili personali a server esterni al dispositivo

Eseguiti localmente, questi modelli leggeri di Llama 3.2 possono servire come agenti economici per coordinare le applicazioni sul dispositivo, tra cui RAG, riassunto multilingue e delega di compiti secondari. Possono anche essere utilizzati per ridurre i costi dell'implementazione di modelli di sicurezza come Llama Guard, una nuova versione multimodale è inclusa nella versione odierna di Meta e disponibile su watsonx.

Entrambi i nuovi modelli Llama leggeri superano di gran lunga le aspettative nei benchmark delle prestazioni, in particolare quelli relativi alle principali attività di AI agentica. Ad esempio, Llama 3.2 3B eguaglia il più grande Llama 3.1 8B per l'uso degli strumenti (BFCL v2) e lo supera nella sintesi (TLDR9+), mentre 1B rivaleggia allo stesso modo sia nelle attività di sintesi che di riscrittura. In un'indicazione significativa di quanto siano arrivati gli LLM aperti in poco tempo, Llama 3.2 3B ha superato significativamente il GPT-4 originale nel benchmark MATH.
 

Perché usare i modelli Llama in IBM watsonx?

Con la disponibilità sempre crescente di potenti modelli di AI, costruire un vantaggio competitivo usando solo soluzioni pronte all'uso diventerà sempre più difficile. I modelli aperti Llama sono in grado di competere persino con i modelli più potenti nei benchmark delle prestazioni, offrendo al contempo personalizzazione, trasparenza e flessibilità, non possibili con i modelli chiusi.

  • Personalizzazione: fornendo accesso diretto ai pesi e all'architettura dei modelli, Llama permette agli sviluppatori di personalizzare i modelli in base a esigenze specifiche, domini e casi d'uso. I modelli Llama 3.2 pre-addestrati saranno disponibili per la messa a punto o per il pre-addestramento continuo nel watsonx Tuning Studio nelle prossime settimane.

  • Flessibilità: come tutti ifoundation model disponibili in IBM watsonx, i modelli Llama possono essere implementati in qualsiasi ambiente: cloud, on-premise o ibrido. A differenza di altri fornitori che limitano gli utenti a uno specifico cloud pubblico, watsonx permette agli sviluppatori di utilizzare al meglio la flessibilità di Llama 3.2.

  • Sicurezza e protezione: l'approccio responsabile di Meta all'innovazione dell'AI continua a produrre un'ampia gamma di salvaguardie importanti. La raccolta Llama 3.2 include un modello aggiornato di Llama Guard 3, Llama-Guard-3-11B-Vision, che fornisce un insieme di guardrail di inferenza input-output compatibili con la nuova funzionalità multimodale di Llama. IBM watsonx migliora ulteriormente un'AI responsabile e affidabile con guardrail per l'AI dinamici e solide misure di sicurezza, privacy e protezione.

  • Trasparenza: a differenza della black box offerta dai modelli closed source, l'ecosistema Llama offre piena visibilità, controllo e spiegabilità,soprattutto se abbinato alla soluzione di governance dell'AI di IBM per gestire e monitorare l'AI in tutta l'organizzazione.
     

Iniziare con Llama 3.2

Il supporto a Llama 3.2 fa parte dell'impegno di IBM a promuovere l'innovazione open source nell'AI e a fornire ai nostri clienti l'accesso a modelli aperti di altissimo livello in watsonx, inclusi sia modelli di terze parti che la famiglia di modelli IBM Granite.

IBM watsonx aiuta a consentire ai clienti di personalizzare veramente l'implementazione di modelli open source come Llama 3.2, dalla completa flessibilità dell'implementazione degli ambienti a workflow intuitivi per la messa a punto, il prompt engineering e l' integrazione con applicazioni aziendali. Crea rapidamente applicazioni AI personalizzate per il tuo business, gestisci tutte le fonti di dati e accelera i workflow di AI responsabile, il tutto da un'unica piattaforma.

I seguenti modelli sono disponibili oggi in IBM watsonx.ai:

  • Llama-3.2-90B-Vision-Instruct (input di testo e immagini)
  • Llama-3.2-11B-Vision-Instruct (input di testo e immagini)
  • Llama-3.2-3B-Instruct (solo testo)
  • Llama-3.2-1B-Instruct (solo testo)
  • Llama-Guard-3-11B-Vision (input testo e immagini)

Nelle prossime settimane si uniranno a loro i modelli Llama 3.2 pre-addestrati. I modelli “-Instruct” sono stati tutti sottoposti a messa a punto supervisionata (SFT) e apprendimento per rinforzo con feedback umano (RLHF) per un migliore allineamento rispettivamente ai casi d'uso comuni e alle preferenze umane in termini di utilità e sicurezza.
 

Prova Llama 3.2 in watsonx.ai →

 

Note a piè di pagina

Le valutazioni dei benchmark citate per i modelli proprietari sono tratte da dati auto-riportate da Anthropic il 20 giugno, 2024 (per Claude 3.5 Sonnet e Claude 3 Opus) e 4 marzo, 2024 (per Claude 3 Sonnet e Haiku), da OpenAI il 13 maggio 2024 (per i modelli GPT) e Google Deepmind a maggio e settembre 2024 (per i modelli Gemini). I test AI2D per Gemini 1.5 Pro sono stati riportati da Anthropic.

2 Le valutazioni benchmark citate per Pixtral e Qwen-VL sono tratte dai numeri riportati da Mistral AI.

Tutorial e risorse su Llama 3.2

AI multimodale con Llama 3.2 in watsonx
Tutorial

Inizia ora
Le tendenze AI più importanti nel 2024
Articolo

Leggi ora
Demo interattiva demo interattiva
Demo

Esplora la piattaforma
AI generativa + Apprendimento automatico (ML) per le imprese
Guida

Registrati e scarica
Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.

 Esplora watsonx.ai Prenota una demo live