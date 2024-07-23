Martedì 23 luglio, Meta ha annunciato il lancio della collezione Llama 3.1 di modelli linguistici di grandi dimensioni (LLM) multilingue. Llama 3.1 comprende sia modelli di AI generativa open source con testo in ingresso/uscita pre-addestrati che sintonizzati sulle istruzioni, con dimensioni di parametri pari a 8B, 70B e, per la prima volta, 405B.
Llama 3.1-405B ottimizzato per le istruzioni, che si preannuncia come il modello di linguaggio open source più grande e potente disponibile oggi e competitivo con i migliori modelli proprietari sul mercato, sarà disponibile su IBM watsonx.ai e oggi può essere implementato sul cloud IBM, in un ambiente hybrid cloud oppure on-premise.
Il rilascio di Llama 3.1 segue il lancio del 18 aprile dei modelli Llama 3. Nell'annuncio di lancio allegato, Meta ha affermato che "il loro obiettivo nel prossimo futuro è rendere Llama 3 multilingue e multimodale, avere un contesto più lungo e continuare a migliorare le prestazioni complessive delle funzionalità LLM come il ragionamento e la codifica".
Il lancio di oggi di Llama 3.1 dimostra progressi significativi verso questo obiettivo, da una lunghezza contestuale drasticamente aumentata all'uso più ampio degli strumenti e alle funzionalità multilingue.
Nel dicembre 2023, Meta e IBM hanno lanciato l'AI Alliance in collaborazione con oltre 50 membri fondatori e collaboratori globali. Riunendo organizzazioni leader del settore, startup, accademia, ricerca e governo, l'AI Alliance aspira a plasmare l'evoluzione dell'AI per riflettere al meglio le esigenze e la complessità delle nostre società. Dalla sua fondazione, Alliance è cresciuta fino a contare oltre 100 membri.
Più nello specifico, AI Alliance è dedicata a promuovere una comunità aperta che consenta a sviluppatori e ricercatori di accelerare l'innovazione responsabile garantendo al contempo fiducia, sicurezza, diversità, rigore scientifico e competitività economica. A tal fine, l'Alliance sostiene progetti che sviluppano e implementano benchmark e standard di valutazione, aiutano ad affrontare le sfide a livello sociale, supportano lo sviluppo globale delle competenze nell'AI e ne incoraggiano lo sviluppo aperto in modi sicuri e vantaggiosi.
Llama 3.1 prosegue questa missione offrendo alla comunità globale dell'AI una famiglia di modelli e un ecosistema di sviluppo aperti e all'avanguardia per costruire, sperimentare e scalare responsabilmente nuove idee e approcci. Accanto ai potenti nuovi modelli, il rilascio include robuste misure di sicurezza a livello di sistema, nuove misure di valutazione della sicurezza informatica e aggiornamenti per i tempi di inferenza di sicurezza. Collettivamente, queste risorse incoraggiano la standardizzazione dello sviluppo e dell'uso di strumenti di fiducia e sicurezza per l'AI generativa.
I prossimi modelli Llama con "oltre 400B parametri" sono stati discussi nell'annuncio di aprile del Llama 3, inclusa una valutazione preliminare delle prestazioni del modello, ma le dimensioni esatte e i dettagli non sono stati resi pubblici fino al lancio di oggi. Sebbene Llama 3.1 rappresenti importanti aggiornamenti per tutte le dimensioni dei modelli, il nuovo modello open source 405B raggiunge una parità senza precedenti con i principali LLM proprietari e closed source.
I dati aggiornati diffusi oggi da Meta dipingono un quadro completo di quanto il modello 405B si confronti con altre offerte allo stato dell'arte. Ecco come si confronta con i principali LLM in base ai benchmark comuni.[1]
Nel confronto del 405B con altri modelli all'avanguardia, i benchmark delle prestazioni non sono l'unico fattore da considerare. A differenza degli omologhi closed source, accessibili solo tramite un'API in cui il modello sottostante può essere modificato senza preavviso, Llama 3.1-405B è una piattaforma stabile che può essere costruita, modificata e persino eseguita on-premise. Questo livello di controllo e prevedibilità è un vantaggio per ricercatori, imprese e altre entità che valorizzano coerenza e riproducibilità.
IBM, come Meta, ritiene che la disponibilità di modelli aperti validi faciliti prodotti migliori e più sicuri, acceleri l'innovazione e contribuisca a un mercato AI complessivamente più sano. La scala e la capacità di un sofisticato modello open source a 405B parametri presentano opportunità e casi d'uso unici per organizzazioni di tutte le dimensioni.
Oltre all'uso diretto del modello per inferenza e generazione di testo che, date le dimensioni e le corrispondenti esigenze computazionali, potrebbe richiedere quantizzazione o altri metodi di ottimizzazione per essere eseguiti localmente sulla maggior parte delle configurazioni hardware, il 405B può essere utilizzato per:
Per un lancio di successo con i modelli Llama 3.1, Meta AI "raccomanda vivamente" l'utilizzo di una piattaforma che, come IBM watsonx, offre funzionalità fondamentali per la valutazione dei modelli, i guardrail di sicurezza e la Retrieval-augmented generation (RAG).
Il tanto atteso modello 405B può essere l'aspetto più degno di nota della versione Llama 3.1, ma non è certo l'unico aspetto degno di nota. Sebbene i modelli Llama 3.1 condividano la stessa architettura trasformativa di Llama 3, rappresentano diversi miglioramenti significativi rispetto agli omologhi di Llama 3 in tutte le dimensioni dei modelli.
Per tutti i modelli Llama 3.1 pre-addestrati e ottimizzati in base alle istruzioni, la lunghezza del contesto è stata notevolmente ampliata, passando da 8.192 token in Llama 3 a 128.000 token in Llama 3.1, con un incremento del 1600%. Questo aspetto rende la lunghezza contestuale di Llama 3.1 pari a quella della versione di GPT-4o offerta agli utenti enterprise, significativamente superiore a quella di GPT-4 (o della versione di GPT-4o in ChatGPT Free) e comparabile alla finestra da 200.000 token offerta da Claude 3. Poiché Llama 3.1 può essere distribuito sull'hardware o sul provider di cloud preferito dall'utente, la sua lunghezza contestuale non è soggetta a restrizioni temporanee durante periodi di elevata domanda. Allo stesso modo, Llama 3.1 non è generalmente soggetto ad ampi limiti di utilizzo.
La lunghezza del contesto di un modello, detta anche finestra di contesto, si riferisce alla quantità totale di testo (in token) che un LLM può considerare o "ricordare" in un dato momento. Quando una conversazione, un documento o una base di codice supera la lunghezza massima del contesto di un modello, deve essere ritagliato o riassunto affinché il modello possa procedere. La finestra di contesto ampliata di Llama 3.1 permette ora ai modelli Llama di condurre conversazioni molto più lunghe senza dimenticare dettagli e di integrare documenti o esempi di codice molto più grandi durante l'addestramento e l'inferenza.
Sebbene la conversione del testo in token non comporti un "tasso di scambio" fisso tra parole e token, una stima corretta è di circa 1,5 token a parola. La finestra di contesto di 128.000 token di Llama 3.1 equivale quindi a circa 85.000 parole. Il Tokenizer Playground su Hugging Face è un modo semplice per vedere e sperimentare come diversi modelli tokenizzano gli input di testo.
I modelli Llama 3.1 continuano a godere dei benefici del nuovo tokenizzatore implementato per Llama 3, che codifica il linguaggio in modo molto più efficiente rispetto a Llama 2.
In linea con il suo approccio responsabile all'innovazione, Meta è stata cauta e scrupolosa nell'ampliare la durata del contesto. Vale la pena notare che i precedenti sforzi sperimentali nell'open source hanno prodotto derivati Llama con 128.000 finestre di token, o addirittura 1 milione di finestre di token . Sebbene questi progetti siano un eccellente esempio dei benefici dell'impegno di Meta verso i modelli aperti, vanno affrontati con cautela: ricerche recenti indicano che le finestre contestuali molto lunghe "presentano una nuova e ricca superficie di attacco per gli LLM" in assenza di contromisure rigorose.
Fortunatamente, la versione 3.1 di Llama include anche un nuovo set di guardrail per inferenze. Accanto alle versioni aggiornate di Llama Guard e CyberSec Eval, la versione è supportata dall'introduzione di Prompt Guard, che fornisce filtraggio a iniezione diretta e indiretta tramite prompt. Meta fornisce ulteriori mitigazioni dei rischi con CodeShield, un robusto strumento di filtraggio del tempo di inferenza progettato per prevenire l'introduzione di codice non sicuro generato dagli LLM nei sistemi di produzione.
Come per qualsiasi implementazione di AI generativa, è sempre saggio implementare modelli solo su una piattaforma con misure di sicurezza, privacy e protezione robuste.
Sia i modelli Llama 3.1 pre-addestrati che quelli modificati per l'istruzione, in tutte le dimensioni, saranno ora multilingue. Oltre all'inglese, i modelli Llama 3.1 sono fluenti in altre lingue tra cui spagnolo, portoghese, italiano, tedesco e thailandese. Meta ha fatto notare che "alcune altre lingue" sono ancora in fase di convalida post-addestramento e potrebbero essere rilasciate in futuro.
I modelli Llama 3.1 Instruct sono stati ottimizzati per "utilizzare strumenti", ovvero che Meta ha ottimizzato la loro capacità di interfacciarsi con determinati programmi che completano o espandono le funzionalità dell'LLM. Questo include la formazione per la generazione di chiamate di strumenti specifici per la ricerca, la generazione di immagini, l'esecuzione di codice e gli strumenti di ragionamento matematico, nonché il supporto per l'utilizzo di strumenti zero-shot, ossia la capacità di integrarsi senza problemi con strumenti precedentemente non visti nella formazione.
L'ultima uscita di Meta rappresenta un'opportunità senza precedenti per ottimizzare e adattare modelli di AI generativa davvero all'avanguardia al tuo caso d'uso specifico.
Il supporto a Llama 3.1 fa parte dell'impegno di IBM a promuovere l'innovazione open source nell'AI e a fornire ai clienti l'accesso a modelli aperti di altissimo livello su watsonx, inclusi sia modelli di terze parti che la famiglia di modelli IBM Granite.
IBM watsonx aiuta i clienti a personalizzare veramente l'implementazione di modelli open source come Llama 3.1 nel modo che meglio si adatta alle loro esigenze, dalla flessibilità di distribuire modelli on-premise o nel loro ambiente cloud preferito a workflow intuitivi per il fine-tuning, il prompt engineering e l'integrazione con le applicazioni aziendali. Crea rapidamente applicazioni AI personalizzate per il tuo business, gestisci tutte le fonti di dati e accelera i workflow di AI responsabile, il tutto da un'unica piattaforma.
Llama 3.1-405B sarà disponibile da oggi su IBM watsonx.ai, mentre i modelli 8B e 70B seguiranno a breve.
Inizia subito con i tutorial RAG con Llama 3.1-405B e watsonx.ai:
[1] Le valutazioni di benchmark citate per i modelli proprietari sono tratte da dati autodichiarati da Anthropic il 20 giugno 2024 (per Claude 3.5 Sonnet e Claude 3 Opus) e il 4 marzo 2024 (per Claude 3 Sonnet e Haiku), OpenAI il 13 maggio 2024 (per i modelli GPT) e Google Deepmind nel maggio 2024 (per i modelli Gemini).