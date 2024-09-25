IBM annuncia la disponibilità di diversi modelli Llama 3.2 su watsonx.ai, lo studio enterprise di IBM per gli sviluppatori di AI, in seguito al lancio della raccolta Llama 3.2 di modelli linguistici di grandi dimensioni (LLM) multilingue pre-addestrati e ottimizzati per le istruzioni presso MetaConnect in data odierna.
In particolare, Llama 3.2 segna la prima incursione di Meta nell'AI multimodale: il rilascio include due modelli, nelle dimensioni 11B e 90B, in grado di ricevere immagini come input. I modelli Llama 3.2 90B Vision e 11B Vision personalizzati in base alle istruzioni sono immediatamente disponibili su watsonx.ai tramite SaaS.
Su watsonx.ai sono arrivati anche i modelli Llama più piccoli realizzati fino ad oggi: due LLM con ingresso e uscita testo nelle dimensioni 1B e 3B. Tutti i modelli Llama 3.2 supportano contesti di lunghezza elevata (fino a 128K token) e sono ottimizzati per un'inferenza rapida ed efficiente con attenzione alle query raggruppate. Meta ha specificato che sono ufficialmente supportate le lingue inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese, ma fa notare che Llama 3.2 è stato addestrato su altre lingue oltre a queste 8 e gli sviluppatori potrebbero mettere a punto i modelli Llama 3.2 per tali lingue.
Queste ultime aggiunte di Meta si uniscono all'ampia libreria di foundation model disponibili in watsonx.ai, in linea con la strategia aperta e multi-modello di IBM verso l'AI generativa
“Rendendo disponibili i nostri ultimi modelli Llama 3.2 su watsonx, un bacino molto più ampio di aziende potrà trarre beneficio da queste innovazioni e implementare i nostri nuovi modelli senza problemi, alle proprie condizioni e in ambienti hybrid cloud", afferma Ahmad Al-Dahle, Head of GenAI, Meta. “In Meta riteniamo essenziale adattare le soluzioni AI alle esigenze specifiche di ogni organizzazione e potenziarle per scalare le implementazioni Llama con facilità. La nostra partnership con IBM, un'organizzazione che condivide il nostro impegno per apertura, sicurezza, fiducia e trasparenza, ci permette di fare proprio questo."
Continua a leggere per maggiori dettagli sulla collezione Llama 3.2, incluse nuove funzionalità multimodali, nuove opportunità di implementazione su dispositivi mobili e altri dispositivi edge, caratteristiche di sicurezza aggiornate e altro ancora.
A differenza dei predecessori LLM solo testuali nella serie Llama, Llama 3.2 11B e Llama 3.2 90B hanno esteso le funzionalità per includere casi d'uso con immagini in ingresso e testo in uscita, come la comprensione a livello di documento, l'interpretazione dei grafici e delle didascalie delle immagini. Gli sviluppatori hanno ora accesso a potenti modelli di ragionamento visivo che si avvicinano alle funzionalità avanzate dei modelli chiusi, offrendo al contempo la piena flessibilità e personalizzazione dei modelli aperti.
I nuovi LLM multimodali Llama 3.2 vision possono ragionare su immagini ad alta risoluzione fino a 1120x1120 pixel, permettendone l'uso per attività di computer vision tra cui classificazione, rilevamento e identificazione di oggetti, trascrizione immagine-testo (inclusa la scrittura a mano) tramite riconoscimento ottico dei caratteri (OCR), Q&A contestuali, estrazione e elaborazione dati, confronto immagini e assistenza visiva personale.
Questo approccio alla multimodalità presenta 3 vantaggi fondamentali.
Entrambi i modelli ottengono buone prestazioni nei benchmark multimodali comuni per i modelli linguistici di visione (VLM), avvicinandosi ai punteggi più elevati per i modelli aperti e spesso rivaleggiando con i modelli chiusi all'avanguardia. Ad esempio, l'istruzione ottimizzata per Llama 3.2 90B-Vision corrisponde a GPT-4o di OpenAI sulla comprensione dei grafici (ChartQA) e supera sia Claude 3 Opus di Anthropic che Gemini 1.5 Pro di Google nell'interpretazione dei diagrammi scientifici (AI2D).1
Allo stesso modo, Llama 3.2 11B-Vision ha ottenuto punteggi di benchmark competitivi per la sua categoria di peso, superando Gemini 1.5 Flash 8B nelle domande e risposte del documento (DocVQA), superando Claude 3 Haiku e Claude 3 Sonnet su AI2D, ChartQA e ragionamento matematico visivo (MathVista), e mantenendo il passo con Pixtral 12B e Qwen2-VL 7B nelle domande e risposte visive sui documenti (VQAv2) in generale.2
La collezione Llama 3.2 comprende anche varianti con parametri 1B e 3B, che rappresentano i modelli Llama più piccoli finora realizzati.
Le dimensioni ridotte del modello e i requisiti di elaborazione e memoria di conseguenza modesti consentono a Llama di essere eseguito localmente sulla maggior parte dell'hardware, compresi i dispositivi mobili e altri dispositivi edge. Queste caratteristiche conferiscono a Llama 3.2 1B e Llama 3.2 3B il potenziale per innescare un'ondata di innovazione nelle applicazioni locali e nell'AI agentica. Sebbene i vantaggi di questi modelli compatti e performanti siano molti, forse i due più importanti sono i seguenti:
Eseguiti localmente, questi modelli leggeri di Llama 3.2 possono servire come agenti economici per coordinare le applicazioni sul dispositivo, tra cui RAG, riassunto multilingue e delega di compiti secondari. Possono anche essere utilizzati per ridurre i costi dell'implementazione di modelli di sicurezza come Llama Guard, una nuova versione multimodale è inclusa nella versione odierna di Meta e disponibile su watsonx.
Entrambi i nuovi modelli Llama leggeri superano di gran lunga le aspettative nei benchmark delle prestazioni, in particolare quelli relativi alle principali attività di AI agentica. Ad esempio, Llama 3.2 3B eguaglia il più grande Llama 3.1 8B per l'uso degli strumenti (BFCL v2) e lo supera nella sintesi (TLDR9+), mentre 1B rivaleggia allo stesso modo sia nelle attività di sintesi che di riscrittura. In un'indicazione significativa di quanto siano arrivati gli LLM aperti in poco tempo, Llama 3.2 3B ha superato significativamente il GPT-4 originale nel benchmark MATH.
Con la disponibilità sempre crescente di potenti modelli di AI, costruire un vantaggio competitivo usando solo soluzioni pronte all'uso diventerà sempre più difficile. I modelli aperti Llama sono in grado di competere persino con i modelli più potenti nei benchmark delle prestazioni, offrendo al contempo personalizzazione, trasparenza e flessibilità, non possibili con i modelli chiusi.
Il supporto a Llama 3.2 fa parte dell'impegno di IBM a promuovere l'innovazione open source nell'AI e a fornire ai nostri clienti l'accesso a modelli aperti di altissimo livello in watsonx, inclusi sia modelli di terze parti che la famiglia di modelli IBM Granite.
IBM watsonx aiuta a consentire ai clienti di personalizzare veramente l'implementazione di modelli open source come Llama 3.2, dalla completa flessibilità dell'implementazione degli ambienti a workflow intuitivi per la messa a punto, il prompt engineering e l' integrazione con applicazioni aziendali. Crea rapidamente applicazioni AI personalizzate per il tuo business, gestisci tutte le fonti di dati e accelera i workflow di AI responsabile, il tutto da un'unica piattaforma.
I seguenti modelli sono disponibili oggi in IBM watsonx.ai:
Nelle prossime settimane si uniranno a loro i modelli Llama 3.2 pre-addestrati. I modelli “-Instruct” sono stati tutti sottoposti a messa a punto supervisionata (SFT) e apprendimento per rinforzo con feedback umano (RLHF) per un migliore allineamento rispettivamente ai casi d'uso comuni e alle preferenze umane in termini di utilità e sicurezza.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.