Più grande non sempre vuol dire migliore: come i pattern ibridi di AI abilitano modelli linguistici più piccoli

Più cubi blu, rosa e viola

Con l'ingresso dei grandi modelli linguistici (LLM) nel linguaggio comune, le persone hanno scoperto come utilizzare le app che vi accedono. Gli strumenti di AI moderni possono generare, creare, riassumere, tradurre, classificare e persino conversare. Gli strumenti nel dominio dell'AI generativa ci permettono di generare risposte ai prompt dopo aver appreso da artefatti esistenti.

Un'area che non ha visto molte innovazioni è quella dell'edge e dei dispositivi limitati. Vediamo alcune versioni di app AI eseguite localmente su dispositivi mobili con caratteristiche di traduzione linguistica integrate, ma non abbiamo ancora raggiunto il punto in cui gli LLM generano valore al di fuori dei provider di cloud.

Tuttavia, ci sono modelli più piccoli che hanno il potenziale per innovare le funzionalità di gen AI sui dispositivi mobili. Esaminiamo queste soluzioni dal punto di vista di un modello AI ibrido.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Le basi degli LLM

Gli LLM sono una classe speciale di modelli AI che alimentano questo nuovo paradigma. L'elaborazione del linguaggio naturale (NLP) abilita questa funzionalità. Per addestrare gli LLM, gli sviluppatori utilizzano enormi quantità di dati provenienti da varie fonti, incluso internet. I miliardi di parametri elaborati li rendono così grandi.

Sebbene i modelli linguistici di grandi dimensioni (LLM) conoscano un'ampia gamma di argomenti, sono limitati esclusivamente ai dati su cui sono stati addestrati. Ciò significa che non sono sempre "attuali" o accurati. A causa delle loro dimensioni, gli LLM sono tipicamente ospitati nel cloud, il che richiede distribuzioni hardware robuste con molte GPU.

Ciò significa che le aziende che cercano di estrarre informazioni dai loro dati aziendali privati o proprietari non possono utilizzare gli LLM in modo immediato. Per rispondere a domande specifiche, generare sintesi o creare brief, devono includere i loro dati in LLM pubblici o creare i propri modelli. Il modo per aggiungere i propri dati al LLM è noto come retrieval augmentation generation, o pattern RAG. È un pattern di progettazione generazionale per l'AI che aggiunge dati esterni all'LLM.

AI Academy

Scegli il modello AI adatto al tuo caso d'uso

La dimensione maggiore non è sempre la scelta più adatta nel caso dei modelli AI. Contattaci per trovare la soluzione giusta per le tue necessità di business. Poi scarica la nostra guida che ti aiuterà a passare all'azione.

Più piccolo è meglio?

Le imprese che operano in ambiti specializzati, come le telecomunicazioni, la sanità o le compagnie petrolifere e del gas, hanno un focus laser. Sebbene possano trarre beneficio dagli scenari di gen AI e dai casi d'uso, sarebbero meglio serviti da modelli più piccoli.

Nel caso delle telecomunicazioni, ad esempio, alcuni dei casi d'uso comuni sono assistenti AI nei contact center, offerte personalizzate nell'erogazione dei servizi e chatbot basati su AI per migliorare l'esperienza del cliente. I casi d'uso che aiutano le aziende di telecomunicazioni a migliorare le prestazioni della loro rete, aumentare l'efficienza spettrale nelle reti 5G o determinare specifici colli di bottiglia nella rete sono meglio serviti dai dati aziendali stessi (a differenza di un LLM pubblico).

Questo ci porta all'idea che più piccolo è meglio. Esistono ora i modelli linguistici di piccole dimensioni (SLM), più piccoli rispetto agli LLM. Gli SLM vengono addestrati su decine di miliardi di parametri, mentre gli LLM sono addestrati su centinaia di miliardi di parametri. Ancora più importante, gli SLM vengono addestrati su dati relativi a un dominio specifico. Potrebbero non avere informazioni contestuali generali, ma funzionano molto bene nel dominio scelto. 

Grazie alle loro dimensioni più ridotte, questi modelli possono essere ospitati nel data center di un'azienda invece che nel cloud. Gli SLM potrebbero persino funzionare su un singolo chip GPU su larga scala, risparmiando migliaia di dollari in costi di elaborazione annuali. Tuttavia, la distinzione tra ciò che può essere eseguito solo in cloud o in un data center aziendale diventa meno chiara con i progressi nella progettazione dei chip.

Che sia per motivi di costo, privacy dei dati o sovranità dei dati, le aziende potrebbero voler installare questi SLM nei propri data center. La maggior parte delle aziende non ama inviare i propri dati al cloud. Un altro motivo fondamentale è la prestazione. La gen AI all'edge esegue il calcolo e l'inferenza il più vicino possibile ai dati, rendendoli più veloci e sicuri rispetto a un provider di cloud.

Vale la pena notare che gli SLM richiedono meno potenza e sono ideali per l'implementazione in ambienti a risorse limitate e persino su dispositivi mobile.

Un esempio on-premise potrebbe essere una location IBM® Cloud Satellite, che ha una connessione sicura ad alta velocità con IBM® Cloud che ospita gli LLM. Le compagnie di telecomunicazioni potrebbero ospitare questi SLM nelle loro stazioni base e offrire questa opzione anche ai loro clienti. Tutto si tratta di ottimizzare l'uso delle GPU, poiché la distanza che i dati devono percorrere si riduce, con conseguente aumento della larghezza di banda.

Quanto piccolo è "piccolo"?

Torniamo alla domanda iniziale sulla possibilità di eseguire questi modelli su un dispositivo mobile. Il dispositivo mobile può essere un telefono di fascia alta, un'automobile o anche un robot. I produttori di dispositivi hanno scoperto che è necessaria una larghezza di banda significativa per eseguire gli LLM. Gli LLM piccoli sono modelli di dimensioni ridotte che possono essere eseguiti localmente su mobile e dispositivi medici.

Gli sviluppatori utilizzano tecniche come l'adattamento a basso rango per creare questi modelli. Consentono agli utenti di mettere a punto i modelli secondo requisiti unici, mantenendo il numero di parametri addestrabili relativamente basso. Non a caso, esiste persino un progetto TinyLlama su GitHub.

I produttori di chip stanno sviluppando chip in grado di eseguire una versione ridotta degli LLM attraverso la diffusione delle immagini e la distillazione delle conoscenze. I system-on-chip (SOC) e le unità di neuro-elaborazione (NPU) assistono i dispositivi edge nell'esecuzione di compiti di gen AI.

Sebbene alcuni di questi concetti non siano ancora in produzione, gli architetti delle soluzioni dovrebbero considerare ciò che è possibile oggi. Gli SLM che lavorano e collaborano con gli LLM possono essere una soluzione valida. Le aziende possono decidere di utilizzare modelli AI esistenti, più piccoli e specializzati per i settori, oppure di crearne di propri per offrire un'esperienza del cliente personalizzata.

La risposta è l'AI ibrida?

Mentre l'esecuzione di SLM on-premise sembra pratica e gli LLM piccoli sui dispositivi mobile edge sono allettanti, cosa succede se il modello richiede un corpus di dati più ampio per rispondere a qualche prompt? 

Il cloud computing ibrido offre il meglio di entrambi i mondi. Potrebbe valere lo stesso per i modelli AI?

Quando i modelli più piccoli non funzionano, il modello di AI ibrido offre l'opzione di accedere agli LLM nel cloud pubblico. Abilitare questa tecnologia ha senso perché consente alle aziende di mantenere la sicurezza dei dati all'interno della propria sede, utilizzando SLM specifici per il dominio, e di accedere agli LLM nel cloud pubblico quando necessario. Man mano che i dispositivi mobili con SOC diventano più capaci, questo sembra un modo più efficiente per distribuire workload dell'AI generativa.

IBM ha recentemente annunciato la disponibilità del modello open source Mistral AI sulla piattaforma watson. Questo LLM compatto richiede meno risorse per funzionare, ma è altrettanto efficace e offre prestazioni migliori rispetto agli LLM tradizionali. IBM ha inoltre rilasciato il modello Granite 7B come parte della sua famiglia di foundation model altamente curata e affidabile.

Sosteniamo che le aziende dovrebbero concentrarsi sulla costruzione di piccoli modelli specifici per dominio con i propri dati interni aziendali per differenziare le loro competenze core e utilizzare insight dai dati (piuttosto che azzardarsi a costruire propri LLM generici, facilmente accessibili da più fornitori).

Più grande non sempre vuol dire migliore

Le società di telecomunicazioni sono un ottimo esempio di azienda che trarrebbe beneficio dall'adozione di questo modello ibrido di modelli AI. Hanno un ruolo unico, poiché possono essere sia consumatori che fornitori. Scenari simili possono essere applicabili anche alla sanità, alle piattaforme petrolifere, alle aziende di logistica e ad altri settori. Le compagnie telefoniche sono pronte a sfruttare al meglio il gen AI? Sappiamo che hanno molti dati, ma hanno un modello di serie temporale che si adatta ai dati?

Per quanto riguarda i modelli AI, IBM adotta una strategia multimodello per adattarsi a ogni caso d'uso. Più grande non sempre vuol dire migliore, poiché i modelli specializzati superano quelli a uso generale con requisiti infrastrutturali più bassi.

 

Autore

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai Esplora i modelli AI Granite di IBM