Foundation model all'edge

I foundation model (FM) segnano l'inizio di una nuova era nel machine learning (ML) e nell'intelligenza artificiale AI, che sta portando a uno sviluppo più rapido di AI adattabili a una vasta gamma di compiti a valle e affinati per una vasta gamma di applicazioni.

Con l'importanza crescente dell'elaborazione dei dati dove si svolge il lavoro, servire i modelli AI all'edge consente previsioni quasi in tempo reale, rispettando al contempo i requisiti di sovranità e privacy dei dati. Combinando le funzionalità di IBM® watsonx per gli FM con l'edge computing, le aziende possono eseguire workload AI per mettere a punto e fare inferenze con gli FM all'edge. Ciò consente alle aziende di scalare le distribuzioni di AI all'edge, riducendo i tempi e i costi di distribuzione con tempi di risposta più rapidi.

Assicurati di leggere tutti gli articoli di questa serie di post sul blog sull'edge computing:

Parte 1: "Cloud all'edge"
Parte 2: "Architettura all'edge"
Parte 3: "DevOps all’edge"
Parte 4: "Sicurezza all'edge"
Parte 5: "5G all'edge"
Parte 6: "Cluster all'edge"
Parte 7: "Automazione all'edge"
Parte 8: "Network slicing all'edge"
Parte 9: "Dati all'edge"
Parte 10: "Decisioni architettoniche all'edge"
Parte 11: "GitOps all'edge"
Parte 12: "Servizi di storage all'edge"
Parte 13: "Servizi cloud all'edge"
Parte 14: "Sovranità dei dati all'edge"
Parte 15: "Prodotti connessi all'edge"
Parte 16: "Foundation model all'edge"

Cosa sono i foundation model?

I foundation model (FM), che vengono addestrati su un'ampia serie di dati non etichettati su larga scala, stanno guidando le applicazioni di intelligenza artificiale (AI) all'avanguardia. Possono essere adattati a un'ampia gamma di attività a valle e ottimizzati per una serie di applicazioni. I modelli AI moderni che eseguono compiti specifici in un unico dominio stanno lasciando il posto a gli FM, poiché apprendono in modo più generale e funzionano su diversi domini e problemi. Come suggerisce il nome, un FM può essere la fondazione per molte applicazioni dei modelli AI.

Gli FM risolvono due sfide chiave che hanno impedito alle aziende di scalare l'adozione dell'AI. Innanzitutto, le aziende producono una grande quantità di dati non etichettati, solo una frazione dei quali è destinata all'addestramento dei modelli AI. In secondo luogo, questo compito di etichettatura e annotazione richiede un impegno umano molto elevato e spesso diverse centinaia di ore di lavoro da parte di un esperto in materia (SME). Questo rende proibitiva la scalabilità tra i casi d'uso, poiché richiederebbe interi eserciti di esperti e di dati. Inserendo enormi quantità di dati non etichettati e utilizzando tecniche auto-supervisionate per l'addestramento dei modelli, gli FM hanno eliminato questi colli di bottiglia e aperto la strada per l'adozione su larga scala dell'AI in tutta l'azienda. Queste enormi quantità di dati presenti in ogni azienda aspettano solo di essere sfruttate per generare insight.

Che cosa sono i modelli linguistici di grandi dimensioni?

I modelli linguistici di grandi dimensioni (LLM) sono una classe di foundation model (FM) che consistono in strati di reti neurali addestrate su queste enormi quantità di dati non etichettati. Utilizzano algoritmi di apprendimento auto-supervisionato per eseguire una varietà di compiti di elaborazione del linguaggio naturale (NLP) in modi simili a come gli esseri umani usano il linguaggio (vedi Figura 1).

Figura 1. I modelli linguistici di grandi dimensioni (LLM) hanno conquistato il campo dell'AI.

Scala e accelera l'impatto dell'AI

La creazione e la distribuzione di un foundation model (FM) richiedono diversi passaggi. Questi includono data ingestion, la selezione dei dati, la pre-elaborazione dei dati, la pre-formazione FM, la sintonizzazione del modello per uno o più compiti a valle, il servizio di inferenza, e la governance e gestione del ciclo di vita dei dati e modelli AI, tutti elementi che possono essere descritti come FMOps.

Per aiutare in tutto questo, IBM offre alle aziende gli strumenti e le funzionalità necessarie per utilizzare la potenza di questi FM attraverso il portfolio di prodotti AI IBM watsonx progettati per moltiplicare l'impatto dell'AI in un'azienda. IBM watsonx è composto dai seguenti elementi:

IBM watsonx.ai riunisce nuove funzionalità di AI generativa (alimentate da modelli di base e machine learning tradizionale) in uno studio potente che copre l'intero ciclo di vita dell'AI.
IBM® watsonx.data è un archivio dati adatto allo scopo costruito su un'architettura lakehouse aperta per scalare i carichi di lavoro di AI, per tutti i tuoi dati, ovunque.
IBM® watsonx.governance è un toolkit end-to-end per la governance dell'AI lungo l'intero ciclo di vita del modello che abilita workflow di AI responsabili, trasparenti e spiegabili.

Un altro vettore chiave è la crescente importanza del computing all'edge aziendale, come sedi industriali, reparti di produzione, punti vendita, siti edge di telecomunicazioni, ecc. Più precisamente, l'AI all'edge aziendale consente l'elaborazione dei dati nel luogo in cui viene svolto il lavoro, per un'analisi quasi in tempo reale. L'edge aziendale è il luogo in cui si generano grandi quantità di dati aziendali e dove l'AI può fornire insight preziosi, tempestivi e attuabili.

Servire i modelli AI al edge consente previsioni quasi in tempo reale, rispettando i requisiti di sovranità e privacy dei dati. Questo riduce notevolmente la latenza spesso associata all'acquisizione, trasmissione, trasformazione e elaborazione dei dati di ispezione. Lavorare all'edge ci permette di proteggere i dati aziendali sensibili e ridurre i costi di trasferimento dati con tempi di risposta più rapidi.

Scalare le implementazioni dell'AI all'edge, tuttavia, non è un compito facile di fronte a sfide legate ai dati (eterogeneità, volume e regolamentazione) e alle risorse limitate (calcolo, connettività di rete, storage e persino competenze IT). Queste possono essere suddivise in due categorie:

Tempo/costo di implementazione: ogni implementazione è composta da diversi livelli di hardware e software che devono essere installati, configurati e testati prima dell'implementazione. Oggi, un professionista del servizio può impiegare fino a una o due settimane per l'installazione in ogni sede, limitando fortemente la rapidità e il costo in cui le aziende possono ampliare le distribuzioni in tutta l'organizzazione.
Gestione Day 2: il gran numero di edge distribuiti e la posizione geografica di ogni distribuzione possono spesso rendere terribilmente costoso fornire supporto IT locale in ogni sede per monitorare, mantenere e aggiornare queste distribuzioni.

Implementazioni AI all'edge

IBM ha sviluppato un'architettura all'edge che affronta queste sfide portando un modello integrato hardware/software (appliance hardware/software) nelle implementazioni di edge AI. Consiste in diversi paradigmi chiave che favoriscono la scalabilità delle implementazioni di AI:

Provisioning basato su politiche e zero-touch, dell'intero stack software.
Monitoraggio continuo dello stato dei sistemi edge
Capacità di gestire e inviare aggiornamenti software/di sicurezza/di configurazione a numerose sedi all'edge, il tutto da una posizione centrale basata su cloud per la gestione immediata.

Un'architettura distribuita hub-and-spoke può essere utilizzata per scalare le distribuzioni di AI aziendali all'edge, dove un cloud centrale o un data center aziendale agisce come hub e l'appliance edge-in-a-box funge da spoke in una posizione edge. Questo modello hub and spoke, che si estende agli ambienti di hybrid cloud e edge, illustra al meglio l'equilibrio necessario per utilizzare in modo ottimale le risorse necessarie per le operazioni (vedi Figura 2).

Figura 2. Una configurazione di distribuzione hub e spoke per l'AI aziendale nelle aree edge.

Il pre-addestramento di questi modelli linguistici di grandi dimensioni (LLM) di base e di altri tipi di foundation model utilizzando tecniche auto-supervisionate su vasti set di dati non etichettati spesso richiede risorse di calcolo (GPU) significative ed è meglio eseguito in un hub. Le risorse di calcolo praticamente illimitate e i grandi cumuli di dati spesso archiviati nel cloud permettono il pre-addestramento di grandi modelli a parametri e un miglioramento continuo dell'accuratezza di questi foundation model.

D'altra parte, la sintonizzazione di queste FM base per compiti a valle (che richiedono solo poche decine o centinaia di campioni di dati etichettati e il servizio di inferenza) può essere realizzata con poche GPU all'edge. In questo modo, i dati sensibili etichettati (o i dati aziendali di punta) possono rimanere in sicurezza all'interno dell'ambiente operativo aziendale, riducendo al contempo i costi di trasferimento dei dati.

Utilizzando un approccio full-stack per la distribuzione delle applicazioni all'edge, un data scientist può eseguire la messa a punto, il test e la distribuzione/implementazione dei modelli. Ciò può essere realizzato in un unico ambiente, riducendo al contempo il ciclo di sviluppo per fornire nuovi modelli AI agli utenti finali. Piattaforme come Red Hat OpenShift Data Science (RHODS) e la recentemente annunciata Red Hat OpenShift AI offrono strumenti per sviluppare e implementare rapidamente modelli AI pronti per la produzione in ambienti cloud distribuito e edge.

Infine, distribuire il modello AI messo a punto all'edge aziendale riduce notevolmente la latenza spesso associata all'acquisizione, trasmissione, trasformazione e elaborazione dei dati. Separare il pre-addestramento nel cloud dalla messa a punto e dalle inferenze sull'edge riduce il costo operativo complessivo riducendo il tempo richiesto e i costi di movimento dati associati a qualsiasi compito di inferenza (vedi Figura 3).

Figura 3. Proposta di valore per la messa a punto degli FM e l'inferenza sull'edge operativo con un edge-in-a-box. Un caso d'uso esemplare con un ingegnere civile che distribuisce un modello FM del genere per insight di rilevamento di difetti quasi in tempo reale utilizzando input di immagini di droni.

Per dimostrare questa proposta di valore end-to-end, un foundation model esemplare basato su trasformatori di visione per infrastrutture civili (pre-addestrato utilizzando set di dati pubblici e personalizzati specifici di settore) è stato finemente calibrato e implementato per l'inferenza su un cluster di tre nodi edge (spoke). Lo stack software includeva Red Hat OpenShift Container Platform e Red Hat OpenShift Data Science. Questo cluster edge era anche collegato a un'istanza di Red Hat Advanced Cluster Management for Kubernetes (RHACM) hub che girava nel cloud.

Provisioning zero-touch

Il provisioning zero-touch basato su policy è stato effettuato con Red Hat Advanced Cluster Management for Kubernetes (RHACM) tramite policy e tag di posizionamento, che legano cluster edge specifici a un insieme di componenti e configurazioni software. Questi componenti software (che si estendono sul full stack e coprono compute, storage, rete e workload AI) sono stati installati utilizzando vari operatori OpenShift, la fornitura dei servizi applicativi necessari e S3 Bucket (storage).

Il foundation model (FM) pre-addestrato per infrastrutture civili è stato perfezionato tramite un Jupyter Notebook all'interno di Red Hat OpenShift data science (RHODS) utilizzando dati etichettati per classificare sei tipi di difetti riscontrati sui ponti in calcestruzzo. Il servizio di inferenza di questo FM messo a punto è stato dimostrato anche utilizzando un server Triton. Inoltre, il monitoraggio dello stato di salute di questo sistema edge è stato reso possibile aggregando metriche di observability dai componente hardware e software tramite Prometheus al dashboard centrale RHACM nel cloud. Le imprese di infrastrutture civili possono distribuire questi FM nelle loro posizioni edge e utilizzare immagini dei droni per rilevare difetti quasi in tempo reale, accelerando il time-to-insight e riducendo i costi di trasferimento di grandi volumi di dati ad alta definizione da e verso il cloud.

Riepilogo

Combinare le funzionalità IBM® watsonx per i foundation model con un appliance edge-in-a-box permette alle aziende di eseguire carichi di lavoro AI per la fine-tuning e l'inferenza dei foundation model al margine operativo. Questo appliance può gestire casi d'uso complessi fin da subito e costruisce il framework hub-and-spoke per la gestione centralizzata, l'automazione e il self-service. Le implementazioni Edge FM possono essere ridotte da settimane a ore, con successo ripetibile, maggiore resilienza e sicurezza.