Che cosa sono i modelli linguistici di piccole dimensioni?

Autori

Rina Diane Caballar

Staff Writer

IBM Think

Cosa sono i modelli linguistici di piccole dimensioni?

I modelli linguistici di piccole dimensioni (SLM) sono modelli di intelligenza artificiale (AI) in grado di elaborare, comprendere e generare contenuti in linguaggio naturale. Come suggerisce il nome, gli SLM sono più piccoli per scala e portata rispetto ai modelli linguistici di grandi dimensioni (LLM).

In termini di dimensioni, i parametri degli SLM vanno da pochi milioni a pochi miliardi, al contrario degli LLM con centinaia di miliardi o persino trilioni di parametri. I parametri sono variabili interne, come pesi e distorsioni, che un modello apprende durante l'addestramento. Questi parametri influenzano il comportamento e le prestazioni di un modello di machine learning.

I modelli linguistici di piccole dimensioni sono più compatti ed efficienti rispetto ai modelli di grandi dimensioni. Di conseguenza, gli SLM richiedono meno memoria e potenza di calcolo, il che li rende ideali per ambienti con risorse limitate come dispositivi edge e app per dispositivi mobili, o anche per scenari in cui l'inferenza AI, ovvero quando un modello genera una risposta alla query di un utente, deve essere eseguita offline senza una rete di dati.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funzionano i modelli linguistici di piccole dimensioni

Gli LLM fungono da base per gli SLM. Come i modelli linguistici di grandi dimensioni, i modelli linguistici di piccole dimensioni utilizzano un'architettura basata su reti neurali nota come modello trasformatore. I trasformatori sono diventati fondamentali nell'elaborazione del linguaggio naturale (PNL) e fungono da elementi costitutivi di modelli come il trasformatore generativo pre-addestrato(GPT).

Ecco una breve panoramica dell'architettura trasformativa:

  • I codificatori trasformano le sequenze di input in rappresentazioni numeriche chiamate embedding (incorporamenti) che acquisiscono la semantica e la posizione dei token nella sequenza di input.

  • Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.

  • I decodificatori utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.

Compressione del modello

Le tecniche di compressione del modello vengono applicate per creare un modello più snello a partire da uno più grande. Comprimere un modello significa ridurne le dimensioni conservando il più possibile la sua accuratezza. Ecco alcuni metodi comuni di compressione del modello:

  • Pruning

  • Quantizzazione

  • Fattorizzazione a basso rango

  • Distillazione della conoscenza

Pruning

Il pruning rimuove i parametri meno cruciali, ridondanti o non necessari da una rete neurale. I parametri che di solito vengono eliminati includono i pesi numerici corrispondenti alle connessioni tra i neuroni (in questo caso, i pesi saranno impostati su 0), i neuroni stessi o gli strati di una rete neurale.

I modelli sottoposti a pruning dovranno spesso essere messi a punto dopo il pruning per compensare qualsiasi perdita di precisione. Inoltre, è fondamentale sapere quando sono stati eliminati abbastanza parametri, poiché un pruning eccessivo può degradare le prestazioni di un modello.

Quantizzazione

La quantizzazione converte i dati ad alta precisione in dati a bassa precisione. Ad esempio, i pesi del modello e i valori di attivazione (un numero compreso tra 0 e 1 assegnato ai neuroni in una rete neurale) possono essere rappresentati come numeri interi a 8 bit anziché come numeri in virgola mobile a 32 bit. La quantizzazione può alleggerire il carico computazionale e accelerare l'inferenza.

La quantizzazione può essere incorporata nell'addestramento del modello (noto come addestramento consapevole della quantizzazione o QAT) o effettuata dopo l'addestramento (chiamata quantizzazione post-addestramento o PTQ). La PTQ non richiede la stessa quantità di potenza di calcolo e di dati di addestramento del QAT, ma quest'ultimo può produrre un modello più accurato.

Fattorizzazione a basso rango

La low-rank factorization scompone una matrice di pesi di grandi dimensioni in una matrice più piccola e di rango inferiore. Questa approssimazione più compatta può comportare un minor numero di parametri, ridurre il numero di calcoli e semplificare operazioni matriciali complesse.

Tuttavia, la fattorizzazione a basso rango può richiedere un'enorme quantità di risorse computazionali ed essere più difficile da implementare. Come il pruning, la rete fattorizzata richiederà una messa a punto per recuperare eventuali perdite di precisione.

Distillazione della conoscenza

La distillazione della conoscenza implica il trasferimento delle conoscenze di un "modello insegnante" pre-addestrato a un "modello studente". Il modello studente è addestrato non solo per eguagliare le previsioni del modello insegnante, ma anche per imitare il suo processo di ragionamento sottostante. In quanto tale, la conoscenza di un modello più ampio viene essenzialmente "distillata" in un modello più piccolo.

La distillazione della conoscenza è un approccio comune a molti SLM. In genere viene utilizzato lo schema di distillazione offline, in cui i pesi del modello insegnante sono congelati e non possono essere modificati durante il processo di distillazione.

AI Academy

Scegli il modello AI adatto al tuo caso d'uso

La dimensione maggiore non è sempre la scelta più adatta nel caso dei modelli AI. Contattaci per trovare la soluzione giusta per le tue necessità di business. Poi scarica la nostra guida che ti aiuterà a passare all'azione.

Esempi di modelli linguistici di piccole dimensioni

Mentre i modelli più grandi rimangono una tecnologia preferita da molte aziende, i modelli più piccoli stanno rapidamente guadagnando terreno. Ecco alcuni esempi di SLM popolari:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBert è una versione più leggera del pionieristico foundation model BERT di Google. Utilizza la distillazione della conoscenza per renderlo il 40% più piccolo e il 60% più veloce del suo predecessore, pur mantenendo il 97% delle capacità di natural language understanding di BERT.1

Altre versioni ridotte di BERT includono tiny con 4,4 milioni di parametri, mini con 11,3 milioni di parametri, small con 29,1 milioni di parametri e medium con 41,7 milioni di parametri.2 Nel frattempo, MobileBERT è fatto su misura per dispositivi mobili.3

Gemma

Gemma è realizzata e distillata con la stessa tecnologia del Gemini LLM di Google ed è disponibile nelle dimensioni di 2, 7 e 9 miliardi di parametri.4 Gemma è disponibile tramite Google AI Studio e le piattaforme Kaggle e Hugging Face.

Gemini ha anche varianti più leggere sotto forma di Gemini 1.5 Flash-8B e Gemini 1.0 Nano, progettate per funzionare su dispositivi mobili.5

GPT-4o mini

GPT-4o mini fa parte della famiglia di modelli AI GPT-4 di OpenAI, che alimenta il chatbot di AI generativa ChatGPT. GPT-4o mini è una variante più piccola ed economica di GPT-4o. Ha funzionalità multimodali, accetta input di testo e immagini e produce output di testo.

Gli utenti di ChatGPT Free, Plus, Team ed Enterprise possono accedere a GPT-4o mini, che sostituisce GPT-3.5. Gli sviluppatori possono accedere a GPT-4o mini tramite varie application programming interface (API).

Granite

GraniteTM è la serie di punta di foundation model LLM di IBM. La collezione Granite 3.0 include modelli di base pre-addestrati e ottimizzati per le istruzioni con 2 e 8 miliardi di parametri. Granite 3.0 include anche modelli SLM con mixture of experts (MoE) per una latenza minima e una variante ottimizzata per accelerare la velocità di inferenza del modello.

Questi modelli open-source non eccellono solo nei compiti specifici di una lingua, ma anche in domini aziendali come la cybersecurity, come gli agenti AI che utilizzano la chiamata di strumenti o funzioni per eseguire autonomamente i compiti, e nei compiti di retrieval-augmented generation (RAG) che comportano il recupero di fatti da una base di conoscenza esterna per fondare i modelli sulle informazioni più precise e aggiornate.

I modelli Granite 3.0 sono disponibili per uso commerciale sulla piattaforma IBM® watsonx e tramite Google Vertex AI, Hugging Face, NVIDia (come microservizi NIM), Ollama e Replicate.

Llama

Llama è la linea di modelli linguistici open source di Meta. Llama 3.2 è disponibile nelle versioni da 1 e 3 miliardi di parametri,6 ancora più piccole della precedente versione da 7 miliardi di parametri di Llama 2.7

Le versioni quantizzate di questi modelli multilingue di solo testo sono state ridotte a più della metà delle loro dimensioni e sono da 2 a 3 volte più veloci.6 È possibile accedere a questi SLM tramite Meta, Hugging Face e Kaggle.

Ministral

Les Ministraux è un gruppo di SLM di Mistral AI. Ministral 3B è il modello più piccolo dell'azienda con 3 miliardi di parametri, mentre Ministral 8B con 8 miliardi di parametri è il successore di Mistral 7B, uno dei primi modelli AI rilasciati da Mistral AI. Entrambi i modelli sono accessibili tramite Mistral.8

Ministral 8B supera Mistral 7B nei benchmark che valutano la conoscenza, il buon senso, la matematica e le competenze multilingue. Per una rapida inferenza, Ministral 8B utilizza la sliding window attention, un meccanismo dinamico per concentrarsi su determinate "finestre" di sequenze di input di dimensioni fisse, che consente ai modelli di concentrarsi solo su poche parole alla volta.8

Phi

Phi è una suite di modelli linguistici di piccole dimensioni di Microsoft. Phi-2 ha 2,7 miliardi di parametri, mentre Phi-3-mini ha 3,8 miliardi di parametri.9

Phi-3-mini è in grado di analizzare e ragionare su contenuti testuali di grandi dimensioni grazie alla sua lunga finestra di contesto, che è la quantità massima di testo che un modello può considerare. Secondo Microsoft, Phi-3-small, il suo SLM da 7 miliardi di parametri, sarà disponibile in futuro. È possibile accedere a PHI-3-mini su Microsoft Azure AI Studio, Hugging Face e Ollama.9

Combinazione di LLM e SLM

I progressi nello sviluppo dell'AI hanno portato ad approcci di ottimizzazione che massimizzano la potenza congiunta di LLM e SLM:

Modello AI ibrido: un modello AI ibrido può avere modelli più piccoli in esecuzione on-premise e accedere agli LLM nel cloud pubblico quando è necessario un corpus di dati più ampio per rispondere a un prompt.

Routing intelligente: il routing intelligente può essere applicato per distribuire in modo più efficiente i workload di AI. È possibile creare un modulo di routing per accettare query, valutarle e scegliere il modello più appropriato a cui indirizzare le query. I modelli linguistici di piccole dimensioni possono gestire richieste di base, mentre i modelli linguistici di grandi dimensioni possono gestire quelle più complicate.

Vantaggi dei modelli linguistici di piccole dimensioni

Più grande non è sempre meglio, e ciò che manca agli SLM in termini di dimensioni, lo compensano attraverso questi vantaggi:

Accessibilità: ricercatori, sviluppatori di AI e altre persone possono esplorare e sperimentare modelli linguistici senza dover investire in più GPU (unità di elaborazione grafica) o altre attrezzature.

Efficienza: la leggerezza degli SLM li rende meno dispendiosi in termini di risorse, consentendo un addestramento e una distribuzione rapidi.

Prestazioni efficaci: questa efficienza non va a scapito delle prestazioni. I modelli piccoli possono avere prestazioni paragonabili o persino migliori rispetto ai modelli equivalenti di grandi dimensioni. Ad esempio, GPT-4o mini supera GPT-3.5 Turbo nei benchmark LLM di comprensione del linguaggio, risposta alle domande, ragionamento, ragionamento matematico e generazione di codice. 10 Anche le prestazioni di GPT-4o mini sono simili a quelle del fratello maggiore GPT-4o.10

Maggiore controllo della privacy e della sicurezza: a causa delle loro dimensioni ridotte, gli SLM possono essere distribuiti in ambienti di cloud computing privati o on-premise, consentendo una migliore protezione dei dati e una migliore gestione e mitigazione delle minacce alla cybersecurity. Questo può essere particolarmente utile per settori come la finanza o la sanità, dove sia la privacy che la sicurezza sono fondamentali.

Latenza inferiore: un minor numero di parametri si traduce in una riduzione dei tempi di elaborazione, consentendo agli SLM di rispondere rapidamente. Ad esempio, Granite 3.0 1B-A400M e Granite 3.0 3B-A800M hanno un numero totale di parametri rispettivamente di 1 miliardo e 3 miliardi, mentre i loro parametri attivi durante l'inferenza sono 400 milioni per il modello 1B e 800 milioni per il modello 3B. Ciò consente a entrambi gli SLM di ridurre al minimo la latenza offrendo al contempo prestazioni di inferenza elevate.

Più sostenibili dal punto di vista ambientale: poiché richiedono meno risorse computazionali, i modelli linguistici di piccole dimensioni consumano meno energia, riducendo così la loro impronta di carbonio.

Costi ridotti: le organizzazioni possono risparmiare sui costi di sviluppo, infrastruttura e operativi, come l'acquisizione di grandi quantità di dati di addestramento di alta qualità e l'utilizzo di hardware avanzato, che altrimenti sarebbero necessari per eseguire modelli di grandi dimensioni.

Limitazioni dei modelli linguistici di piccole dimensioni

Come gli LLM, gli SLM devono ancora fare i conti con i rischi dell'AI. Si tratta di un aspetto da tenere in considerazione per le aziende che desiderano integrare modelli linguistici di piccole dimensioni nei workflow interni o implementarli commercialmente per applicazioni specifiche.

Bias: i modelli più piccoli possono imparare dalle distorsioni presenti nelle loro controparti più grandi e questo effetto a catena può manifestarsi nei loro output.

Riduzione delle prestazioni su compiti complessi: poiché gli SLM sono in genere ottimizzati su compiti specifici, potrebbero essere meno competenti in compiti complessi che richiedono conoscenze su uno spettro completo di argomenti. Ad esempio, Microsoft osserva che i suoi "modelli Phi-3 non hanno prestazioni altrettanto buone nei benchmark della conoscenza fattuale poiché le dimensioni ridotte del modello comportano una minore capacità di conservare i fatti".9

Generalizzazione limitata: i modelli linguistici di piccole dimensioni non dispongono dell'ampia base di conoscenze dei loro equivalenti più grandi, quindi potrebbero essere più adatti per attività linguistiche mirate.

Allucinazioni: la convalida dei risultati degli SLM è fondamentale per assicurarsi che ciò che producono sia effettivamente corretto.

Casi d'uso di modelli linguistici di piccole dimensioni

Le aziende possono mettere a punto gli SLM su set di dati specifici del dominio per personalizzarli in base alle proprie esigenze. Questa adattabilità fa sì che i modelli linguistici di piccole dimensioni possano essere utilizzati per una varietà di applicazioni pratiche:

Chatbot: grazie alla loro bassa latenza e alle funzionalità di AI conversazionale, gli SLM possono potenziare i customer service chatbot, rispondendo rapidamente alle domande in tempo reale. Possono anche fungere da base per i chatbot di agentic AI, che vanno oltre la semplice risposta, completando i compiti per conto dell'utente.

Riepilogo dei contenuti: i modelli Llama 3.2 1B e 3B, ad esempio, possono essere utilizzati per riassumere le discussioni su uno smartphone e creare azioni come eventi del calendario.6 Allo stesso modo, Gemini Nano può riassumere registrazioni audio e trascrizioni di conversazioni.11

AI generativa: è possibile implementare modelli compatti per completare e generare testo e codice software. Ad esempio, i modelli granite-3b-code-instruct e granite-8b-code-instruct possono essere utilizzati per generare, spiegare e tradurre codice da un prompt in linguaggio naturale.

Traduzione linguistica: molti modelli linguistici di piccole dimensioni sono multilingue e sono stati addestrati in lingue diverse dall'inglese, quindi possono tradurre rapidamente tra lingue diverse. Grazie alla loro capacità di comprendere il contesto, possono produrre traduzioni quasi accurate che mantengono le sfumature e il significato del testo originale.

Manutenzione predittiva: i modelli lean sono sufficientemente piccoli da poter essere implementati direttamente su dispositivi edge locali, come sensori o dispositivi Internet of Things (IoT) . Ciò significa che i produttori possono utilizzare gli SLM come strumenti per raccogliere dati da sensori installati su macchinari e apparecchiature e analizzare tali dati in tempo reale per prevedere le esigenze di manutenzione.

Analisi del sentiment: oltre a elaborare e comprendere il linguaggio, gli SLM sono anche abili nell'ordinare e classificare enormi volumi di testo in modo oggettivo. Questo li rende adatti per analizzare il testo e misurare il sentiment dietro di esso, aiutando a comprendere il feedback dei clienti.

Assistenza alla navigazione del veicolo: Un modello veloce e compatto come un SLM può funzionare sui computer di bordo di un veicolo. Grazie alle loro funzionalità multimodali, i modelli in piccolo linguaggio possono combinare i comandi vocali con la classificazione delle immagini, ad esempio, per identificare gli ostacoli attorno a un veicolo. Possono persino attingere alle loro capacità RAG, recuperando dettagli dai codici stradali o dalle regole stradali per aiutare i driver a prendere decisioni di guida più sicure e informate.

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai Esplora i modelli AI Granite di IBM
Note a piè di pagina

Tutti i link sono esterni a ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 marzo 2020

2 Well-Read Students Learn Better: On the Importance of Pre-addestramento Compact Models, arXiv, 25 settembre 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 aprile 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 agosto 2024

5 Gemini Models, Google DeepMind, consultato il 17 ottobre 2024

6 Introducing Llama 3.2, Meta, consultato il 17 ottobre 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 luglio 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 ottobre 2024

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 aprile 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 luglio 2024

11 Gemini Nano, Google DeepMind, consultato il 21 ottobre 2024