I modelli linguistici di piccole dimensioni (SLM) sono modelli di intelligenza artificiale in grado di elaborare, comprendere e generare contenuti in linguaggio naturale. Come suggerisce il nome, gli SLM sono più piccoli in termini di scala e portata rispetto ai modelli linguistici di grandi dimensioni (LLM).
In termini di dimensioni, i parametri SLM vanno da pochi milioni a pochi miliardi, al contrario degli LLM con centinaia di miliardi o addirittura trilioni di parametri. I parametri sono variabili interne, come pesi e distorsioni, che un modello apprende durante l'addestramento. Questi parametri influenzano il comportamento e le prestazioni di un modello di machine learning.
I modelli linguistici di piccole dimensioni sono più compatti ed efficienti rispetto alle controparti dei modelli di grandi dimensioni. Di conseguenza, gli SLM richiedono meno memoria e potenza di calcolo, il che li rende ideali per ambienti con risorse limitate come dispositivi edge e app, o anche per scenari in cui l'inferenza AI, quando un modello genera una risposta alla query di un utente, deve essere eseguita offline senza una rete di dati.
Gli LLM fungono da base per gli SLM. Come i modelli linguistici di grandi dimensioni, i modelli linguistici di piccole dimensioni utilizzano un'architettura basata su reti neurali nota come modello trasformatore. I trasformatori sono diventati fondamentali nell'elaborazione del linguaggio naturale e fungono da elementi costitutivi di modelli come il trasformatore generativo pre-addestrato (GPT).
Ecco una breve panoramica dell'architettura trasformativa:
● I codificatori trasformano le sequenze di input in rappresentazioni numeriche chiamate embedding (incorporamenti) che catturano la semantica e la posizione dei token nella sequenza di input.
● Un meccanismo di autoattenzione consente ai trasformatori di "focalizzare la propria attenzione" sui token più importanti della sequenza di input, indipendentemente dalla loro posizione.
● I decodificatori utilizzano questo meccanismo di autoattenzione e gli incorporamenti degli encoder per generare la sequenza di output statisticamente più probabile.
Le tecniche di compressione del modello vengono applicate per costruire un modello più snello da uno più grande. La compressione di un modello comporta la riduzione delle sue dimensioni, pur conservando la maggior parte possibile della sua accuratezza. Ecco alcuni metodi comuni di compressione del modello:
● Pruning
● Quantizzazione
● Fattorizzazione a basso rango
● Distillazione della conoscenza
Il pruning rimuove i parametri meno cruciali, ridondanti o non necessari da una rete neurale. I parametri che di solito vengono eliminati includono i pesi numerici corrispondenti alle connessioni tra i neuroni (in questo caso, i pesi saranno impostati su 0), i neuroni stessi o gli strati di una rete neurale.
I modelli potati dovranno spesso essere messi a punto dopo la potatura per compensare qualsiasi perdita di precisione. Ed è fondamentale sapere quando i parametri sono stati potati a sufficienza, in quanto una potatura eccessiva può degradare le prestazioni di un modello.
La quantizzazione converte i dati ad alta precisione in dati a bassa precisione. Ad esempio, i pesi del modello e i valori di attivazione (un numero compreso tra 0 e 1 assegnato ai neuroni in una rete neurale) possono essere rappresentati come numeri interi a 8 bit anziché come numeri in virgola mobile a 32 bit. La quantizzazione può alleggerire il carico computazionale e accelerare l'inferenza.
La quantizzazione può essere incorporata nell'addestramento del modello (nota come addestramento consapevole della quantizzazione o QAT) o effettuata dopo l'addestramento (chiamata quantizzazione post-training o PTQ). La PTQ non richiede la stessa potenza di calcolo e i dati di addestramento della QAT, ma quest'ultima può produrre un modello più accurato.
fattorizzazione di basso rango scompone una grande matrice di pesi in una matrice più piccola e di rango inferiore. Questa approssimazione più compatta può comportare un minor numero di parametri, ridurre il numero di calcoli e semplificare operazioni matriciali complesse
.Tuttavia, la fattorizzazione di basso rango può essere intensiva dal punto di vista computazionale e più difficile da implementare. Come il pruning, la rete fattorizzata richiederà una messa a punto per recuperare eventuali perdite di precisione.
La distillazione della conoscenza comporta il trasferimento degli apprendimenti di un "modello insegnante" pre-addestrato a un "modello studentesco". Il modello dello studente viene addestrato non solo per corrispondere alle previsioni del modello dell'insegnante, ma anche per imitare il suo processo di ragionamento sottostante. In quanto tale, la conoscenza di un modello più ampio viene essenzialmente "distillata" in uno più piccolo.
La distillazione della conoscenza è un approccio popolare per molti SLM. In genere viene utilizzato lo schema di distillazione offline, in cui i pesi del modello insegnante sono congelati e non possono essere modificati durante il processo di distillazione.
Mentre i modelli più grandi rimangono una tecnologia preferita da molte aziende, i modelli più piccoli stanno rapidamente guadagnando terreno. Ecco alcuni esempi di SLM popolari
:● DistilBERT
● Gemma
● GPT-4o mini
● Granite
● Llama
● Ministral
● Phi
DistilBERT è una versione più leggera del pionieristico modello di fondazione BERT di Google. Utilizza la distillazione della conoscenza per renderlo il 40% più piccolo e il 60% più veloce rispetto al suo predecessore, pur mantenendo il 97% delle capacità di comprensione del linguaggio naturale di BERT.1
Altre versioni ridotte di BERT includono tiny con 4,4 milioni di parametri, mini con 11,3 milioni di parametri, small con 29,1 milioni di parametri e medium con 41,7 milioni di parametri.2 Nel frattempo, MobileBert è fatto su misura per dispositivi mobili.3
Gemma è realizzata e distillata con la stessa tecnologia del Gemini LLM di Google ed è disponibile in 2, 7 e 9 miliardi di dimensioni di parametri.4 Gemma è disponibile tramite Google AI Studio e le piattaforme Kaggle e Hugging Face.
Gemini ha anche varianti più leggere sotto forma di Gemini 1.5 Flash-8B e Gemini 1.0 Nano progettate per funzionare su dispositivi mobili.5
GPT-4o mini fa parte della famiglia di modelli AI GPT-4 di OpenAI, che alimenta il chatbot AI generativo ChatGPT. GPT-4o mini è una variante più piccola ed economica di GPT-4o. Ha funzionalità multimodali che accettano input di testo e immagini e producono output di testo.
Gli utenti di ChatGPT Free, Plus, Team ed Enterprise possono accedere a GPT-4o mini, che sostituisce GPT-3.5. Gli sviluppatori possono accedere a GPT-4o mini attraverso varie application programming interfaces (API).
GraniteTM è la serie di punta IBM di modelli di fondazione LLM. La collezione Granite 3.0 include modelli di base pre-addestrati e ottimizzati per le istruzioni con 2 e 8 miliardi di parametri. Granite 3.0 dispone anche di una combinazione di SLM esperti (MoE) per una latenza minima e una variante ottimizzata per accelerare la velocità di inferenza del modello.
Questi modelli open-source eccellono non solo nei compiti specifici di una lingua, ma anche in domini aziendali come la cybersecurity, come gli agenti AI che utilizzano la chiamata di strumenti o funzioni per eseguire autonomamente i compiti, e nei compiti di retrieval-augmented generation (RAG) che comportano il recupero di fatti da una base di conoscenza esterna per fondare i modelli sulle informazioni più precise e aggiornate.
I modelli Granite 3.0 sono disponibili per uso commerciale sulla piattaforma IBM watsonx™ e tramite Google Vertex AI, Hugging Face, NVIDia (come microservizi NIM), Ollama e Replicate.
Llama è la linea di modelli linguistici open source di Meta. Llama 3.2 è disponibile con 1 e 3 miliardi di parametri,6 ancora più piccoli della precedente versione da 7 miliardi di parametri di Llama 2.7
Le versioni quantizzate di questi modelli multilingue di solo testo sono state ridotte a più della metà delle loro dimensioni e sono da 2 a 3 volte più veloci.6 È possibile accedere a questi SLM tramite Meta, Hugging Face e Kaggle.
Les Ministraux è un gruppo di SLM di Mistral AI. Ministral 3B è il modello più piccolo dell'azienda con 3 miliardi di parametri, mentre Ministral 8B con 8 miliardi di parametri è il successore di Mistral 7B, uno dei primi modelli AI rilasciati da Mistral AI. Entrambi i modelli sono accessibili tramite Mistral.8
Ministral 8B supera Mistral 7B nei benchmark che valutano la conoscenza, il buon senso, la matematica e le competenze multilingue. Per una rapida inferenza, Ministral 8B utilizza l'attenzione della finestra scorrevole, un meccanismo dinamico per concentrarsi su determinate «finestre» di sequenze di input di dimensioni fisse, che consente ai modelli di concentrarsi solo su poche parole alla volta.8
Phi è una suite di piccoli modelli linguistici di Microsoft. Phi-2 ha 2,7 miliardi di parametri, mentre Phi-3-mini ha 3,8 miliardi di parametri.9
Phi-3-mini è in grado di analizzare e ragionare su contenuti di testo di grandi dimensioni grazie alla sua lunga finestra di contesto, che è la quantità massima di testo che un modello può considerare. Secondo Microsoft, Phi-3-small, il suo SLM da 7 miliardi di parametri, sarà disponibile in futuro. È possibile accedere a Phi-3-mini su Microsoft Azure AI Studio, Hugging Face e Ollama.9
I progressi nello sviluppo dell'AI hanno portato ad approcci di ottimizzazione che massimizzano la potenza congiunta di LLM e SLM:
Modello di intelligenza artificiale ibrido: un modello di intelligenza artificiale ibrido può avere modelli più piccoli in esecuzione on-premise e accedere a LLM nel cloud pubblico quando è necessario un corpus di dati più ampio per rispondere a una richiesta.
Routing intelligente: il routing intelligente può essere applicato per distribuire in modo più efficiente i workload AI. È possibile creare un modulo di routing per accettare query, valutarle e scegliere il modello più appropriato a cui indirizzare le query. I modelli di linguaggio di piccole dimensioni possono gestire richieste di base, mentre i modelli di linguaggio di grandi dimensioni possono affrontare quelle più complicate.
Più grande non è sempre meglio, e ciò che manca alle SLM in termini di dimensioni, lo compensano attraverso questi vantaggi:
Accessibilità: ricercatori, sviluppatori di intelligenza artificiale e altre persone possono esplorare e sperimentare modelli linguistici senza dover investire in più GPU (unità di elaborazione grafica) o altre attrezzatura.
Efficienza: la leggerezza degli SLM li rende meno dispendiosi in termini di risorse, consentendo una formazione e una distribuzione rapide.
Prestazioni efficaci: questa efficienza non va a scapito delle prestazioni. I modelli piccoli possono avere prestazioni comparabili o addirittura migliori rispetto ai loro equivalenti modelli grandi. Ad esempio, GPT-4o mini supera GPT-3.5 Turbo nella comprensione del linguaggio, nella risposta alle domande, nel ragionamento, nel ragionamento matematico e nei benchmark LLM per la generazione di codice. 10 Anche le prestazioni di GPT-4o mini sono simili a quelle del fratello maggiore GPT-4o.10
Maggiore controllo della privacy e della sicurezza: a causa delle loro dimensioni ridotte, gli SLM possono essere distribuiti in cloud privati o on-premise, consentendo una migliore protezione dei dati e una migliore gestione e mitigazione delle minacce alla sicurezza informatica. Questo può essere particolarmente utile per settori come la finanza o la sanità, dove sia la privacy che la sicurezza sono fondamentali.
Latenza inferiore: un minor numero di parametri si traduce in una riduzione dei tempi di elaborazione, consentendo agli SLM di rispondere rapidamente. Ad esempio, Granite 3.0 1B-A400M e Granite 3.0 3B-A800M hanno un numero totale di parametri rispettivamente di 1 miliardo e 3 miliardi, mentre i loro parametri attivi all'inferenza sono 400 milioni per il modello 1B e 800 milioni per il modello 3B. Ciò consente a entrambi gli SLM di ridurre al minimo la latenza offrendo al contempo prestazioni di inferenza elevate.
Più sostenibili dal punto di vista ambientale: poiché richiedono meno risorse computazionali, i modelli linguistici di piccole dimensioni consumano meno energia, riducendo così la loro impronta di carbonio.
Costi ridotti: le organizzazioni possono risparmiare sui costi di sviluppo, infrastruttura e operativi, come l'acquisizione di enormi quantità di dati di formazione di alta qualità e l'utilizzo di hardware avanzato, che altrimenti sarebbero necessari per eseguire modelli di grandi dimensioni.
Come gli LLM, gli SLM devono ancora fare i conti con i rischi dell'AI. Si tratta di una considerazione per le aziende che desiderano integrare modelli linguistici di piccole dimensioni nei workflow interni o implementarli commercialmente per applicazioni specifiche.
Bias: i modelli più piccoli possono imparare dai pregiudizi presenti nelle loro controparti più grandi e questo effetto a catena può manifestarsi nei loro output.
Riduzione delle prestazioni su attività complesse: poiché gli SLM sono in genere ottimizzati su attività specifiche, potrebbero essere meno competenti in attività complesse che richiedono conoscenze su uno spettro completo di argomenti. Ad esempio, Microsoft osserva che i suoi "modelli Phi-3 non si comportano altrettanto bene nei benchmark della conoscenza fattuale poiché le dimensioni ridotte del modello comportano una minore capacità di conservare i fatti".9
Generalizzazione limitata: i modelli linguistici di piccole dimensioni non dispongono dell'ampia base di conoscenze dei loro equivalenti espansivi, quindi potrebbero essere più adatti per attività linguistiche mirate.
Allucinazioni: la convalida dei risultati degli SLM è fondamentale per assicurarsi che ciò che producono sia effettivamente corretto.
Le aziende possono mettere a punto gli SLM su set di dati specifici del dominio per personalizzarli in base alle loro esigenze specifiche. Questa adattabilità significa che i modelli linguistici di piccole dimensioni possono essere utilizzati per una varietà di applicazioni del mondo reale:
Chatbot: grazie alla loro bassa latenza e alle funzionalità dell'AI conversazionale, le SLM possono alimentare i customer service chatbot, rispondendo rapidamente alle domande in tempo reale. Possono anche fungere da backbone per i chatbot dell'agentic AI, che vanno oltre la fornitura di risposte e completano i compiti per conto dell'utente.
Riassunto dei contenuti: i modelli Llama 3.2 1B e 3B, ad esempio, possono essere utilizzati per riassumere le discussioni su uno smartphone e creare elementi di azione come gli eventi del calendario.6 Allo stesso modo, Gemini Nano può riassumere registrazioni audio e trascrizioni di conversazioni.11
AI generativa: è possibile implementare modelli compatti per completare e generare testo e codice software. Ad esempio, i modelli granite-3b-code-instruct e granite-8b-code-instruct possono essere utilizzati per generare, spiegare e tradurre il codice da un prompt in linguaggio naturale.
Traduzione linguistica: molti piccoli modelli linguistici sono multilingue e sono stati addestrati in lingue diverse dall'inglese, quindi possono tradurre rapidamente tra lingue diverse. Grazie alla loro capacità di comprendere il contesto, possono produrre traduzioni quasi accurate che mantengono le sfumature e il significato del testo originale.
Manutenzione predittiva: i modelli lean sono abbastanza piccoli da poter essere distribuiti direttamente su dispositivi edge locali, come sensori o dispositivi Internet of Things (IoT). Ciò significa che i produttori possono trattare gli SLM come strumenti che raccolgono dati da sensori installati in macchinari e attrezzatura e analizzano tali dati in tempo reale per prevedere le esigenze di manutenzione.
Analisi del sentiment: oltre a elaborare e comprendere il linguaggio, gli SLM sono anche abili nell'ordinare e classificare enormi volumi di testo in modo oggettivo. Questo li rende adatti per analizzare il testo e misurare il sentiment dietro di esso, aiutando a comprendere il feedback dei clienti.
Assistenza alla navigazione del veicolo: un modello veloce e compatto come un SLM può essere utilizzato sui computer di bordo di un veicolo. Grazie alle loro funzionalità multimodali, i modelli linguistici di piccole dimensioni possono combinare i comandi vocali con la classificazione delle immagini, ad esempio, per identificare gli ostacoli intorno a un veicolo. Possono anche attingere alle loro RAG, recuperando dettagli dai codici della strada o dalle regole stradali per aiutare i driver a prendere decisioni di guida più sicure e informate.
Tutti i link sono esterni a ibm.com
1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 marzo 2020
2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 settembre 2019
3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 aprile 2020
4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 agosto 2024
5 Gemini Models, Google DeepMind, consultato il 17 ottobre 2024
6 Presentazione di Llama 3.2, Meta, consultato il 17 ottobre 2024
7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 luglio 2023
8 Un Ministral, des Ministraux, Mistral AI, 16 ottobre 2024
9 Presentazione di Phi-3: ridefinire ciò che è possibile con gli SLM, Microsoft, 23 aprile 2024
10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 luglio 2024
11 Gemini Nano, Google DeepMind, consultato il 21 ottobre 2024
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Le aziende sanno di non poter scalare l'AI generativa con modelli di base di cui non possono fidarsi. Scarica l'estratto per scoprire perché IBM, con i suoi "Modelli Granite" di punta, è stata nominata Strong Performer.
Scopri come incoraggiare i team a migliorare sempre di più le prestazioni dei modelli e a superare la concorrenza utilizzando le tecniche e le infrastrutture AI più recenti.
Esplora il valore dei foundation model di livello aziendale che forniscono fiducia, prestazioni e benefici convenienti a tutti i settori.
Scopri come incorporare l'AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.
Guarda una demo del confronto dei modelli IBM con altri modelli in diversi casi d'uso.
Scopri come IBM sta sviluppando foundation model generativi affidabili, efficienti dal punto di vista energetico e portatili.
Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.