Le ultime tendenze in materia di AI, proposte da esperti
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'inferenza AI è la capacità dei modelli AI addestrati di riconoscere schemi e trarre conclusioni da informazioni che non hanno mai visto prima.
L'inferenza AI è fondamentale per il progresso delle tecnologie dell'AI ed è alla base delle sue applicazioni più interessanti, come l'AI generativa, la funzionalità alla base della popolare applicazione ChatGPT. I modelli AI si basano sull'inferenza AI per imitare il modo in cui le persone pensano, ragionano e rispondono ai suggerimenti.
L'inferenza AI inizia addestrando un modello AI su un ampio set di dati con algoritmi decisionali. I modelli AI sono costituiti da algoritmi decisionali addestrati su reti neurali, ovvero modelli linguistici di grandi dimensioni (LLM), costruiti come il cervello umano. Ad esempio, un modello AI progettato per il riconoscimento facciale potrebbe essere addestrato su milioni di immagini del volto umano. Alla fine, impara a identificare con precisione caratteristiche come il colore degli occhi, la forma del naso e il colore dei capelli, e può quindi utilizzarle per riconoscere un individuo in un'immagine.
Sebbene strettamente correlati, l'inferenza AI e il machine learning (ML) sono due fasi diverse del ciclo di vita dei modelli AI.
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
Se i modelli AI non sono addestrati su un set di dati solido e appropriato per la loro applicazione, semplicemente non risultano efficaci. Data la natura sensibile della tecnologia e l'attenzione con cui viene esaminata dalla stampa1, le aziende devono essere caute. Ma con applicazioni che abbracciano diversi settori e offrono il potenziale della trasformazione digitale e dell'innovazione scalabile, i suoi vantaggi sono numerosi:
Sebbene i vantaggi dell'inferenza AI siano numerosi, essendo una tecnologia giovane e in rapida crescita, non è priva di difficoltà. Ecco alcuni dei problemi del settore che le aziende che intendono investire AI devono considerare:
L'inferenza AI è un processo complesso che prevede l'addestramento di un modello AI su set di dati appropriati fino a quando non è in grado di dedurre risposte accurate.
Si tratta di un processo ad alta intensità di calcolo, che richiede hardware e software specializzati. Prima di esaminare il processo di addestramento dei modelli AI per l'inferenza AI, esploriamo alcuni degli hardware specializzati che lo consentono:
L'unità di elaborazione centrale (CPU) è il componente funzionale principale di un computer. Nell'addestramento e nell'inferenza AI, la CPU esegue il sistema operativo e aiuta a gestire le risorse di calcolo necessarie per scopi di formazione.
Le unità di elaborazione grafica (GPU), o circuiti elettronici costruiti per la computer grafica e l'elaborazione delle immagini ad alte prestazioni, sono utilizzate in vari dispositivi, tra cui schede video, schede madri e telefoni cellulari. Tuttavia, grazie alle loro capacità di elaborazione parallela, vengono sempre più utilizzati anche nell'addestramento dei modelli AI. Un metodo consiste nel collegare più GPU a un singolo sistema di AI per aumentarne la potenza di elaborazione.
Gli FPGA (Field-Programmable Gate Array) sono acceleratori di AI altamente personalizzabili che dipendono da conoscenze specialistiche per essere riprogrammati per uno scopo specifico. A differenza di altri acceleratori di AI, le FPGA hanno un design unico che si adatta a una funzione specifica, che spesso ha a che fare con l'elaborazione dei dati in tempo reale, che è fondamentale per l'inferenza AI. Gli FPGA sono riprogrammabili a livello hardware, consentendo un livello di personalizzazione più elevato.
Gli ASIC sono acceleratori di AI progettati pensando a uno scopo o a un workload specifico, come il deep learning nel caso dell'acceleratore ASIC WSE-3 prodotto da Cerebras. Gli ASIC aiutano i data scientist a velocizzare le capacità di inferenza AI e a ridurre i costi. A differenza degli FPGA, gli ASIC non possono essere riprogrammati, ma poiché sono costruiti con uno scopo unico, in genere superano gli altri acceleratori più generici. Un esempio di questi è la Tensor Processing Unit (TPU) di Google, sviluppata per l'apprendimento automatico delle reti neurali utilizzando il software TensorFlow di Google.
Le aziende interessate a investire in applicazioni di AI come parte del loro percorso di trasformazione digitale dovrebbero informarsi sui vantaggi e le sfide dell'inferenza AI. Per coloro che hanno studiato a fondo le varie applicazioni e sono pronti a utilizzarle, ecco cinque passaggi per stabilire un'inferenza efficace nell'AI:
La preparazione dei dati è fondamentale per creare applicazioni e modelli AI efficaci. Le aziende possono creare set di dati per i modelli AI su cui addestrarsi utilizzando i dati all'interno o all'esterno della propria organizzazione. Per ottenere risultati ottimali, è tipico utilizzare una combinazione di entrambi. Un'altra parte fondamentale dell'assemblaggio dei dati su cui si addestrerà la tua AI è la pulizia dei dati, ossia l'eliminazione di eventuali voci duplicate e la risoluzione di eventuali problemi di formattazione.
Una volta assemblato il set di dati, il passo successivo è la selezione del modello AI più adatto alla tua applicazione. I modelli sono disponibili in una gamma da semplici a complessi, con quelli più complessi in grado di accogliere più input e dedurre a un livello più sottile rispetto a quelli meno complessi. Durante questa fase, è importante essere chiari sulle proprie esigenze, poiché l'addestramento di modelli più complessi può richiedere più tempo, denaro e altre risorse rispetto all'addestramento di quelli più semplici.
Per ottenere i risultati desiderati da un'applicazione di AI, solitamente le aziende dovranno sottoporsi a numerosi e rigorosi cicli di formazione sull'AI. Man mano che i modelli vengono addestrati, l'accuratezza delle loro inferenze diventerà più nitida e la quantità di risorse di elaborazione necessarie per raggiungere tali inferenze, come potenza di calcolo e latenza, diminuirà. Man mano che il modello matura, passa a una nuova fase in cui può iniziare a fare inferenze su nuovi dati a partire dai dati su cui ha imparato. Questo è un passo entusiasmante perché puoi vedere il tuo modello iniziare a funzionare nel modo per cui è stato progettato.
Prima che il tuo modello venga considerato operativo, è importante che controlli e monitori i risultati alla ricerca di eventuali imprecisioni, pregiudizi o problemi di privacy dei dati. La post-elaborazione, come viene talvolta chiamata questa fase, è quella in cui si crea un processo passo-passo per garantire l'accuratezza del modello. La fase di postelaborazione è il momento in cui si crea una metodologia che assicura che l'AI ti offre le risposte che desideri e che funzioni come previsto.
Dopo un rigoroso monitoraggio e post-elaborazione, il modello AI è pronto per essere distribuito per uso aziendale. Quest'ultima fase comprende l'implementazione dell'architettura e dei sistemi di dati che consentiranno al tuo modello AI di funzionare, nonché la creazione di eventuali procedure di gestione delle modifiche per istruire gli stakeholder su come utilizzare la tua applicazione di AI nei loro ruoli quotidiani.
A seconda del tipo di applicazione di AI di cui le aziende hanno bisogno, esistono diversi tipi di inferenza AI tra cui scegliere. Se un'azienda sta cercando di creare un modello AI da utilizzare con un'applicazione Internet of Things (IoT), l'inferenza in streaming (con le sue capacità di misurazione) è probabilmente la scelta più appropriata. Tuttavia, se un modello AI è progettato per interagire con gli esseri umani, l'inferenza online (con le sue capacità LLM) sarebbe più adatta. Ecco i tre tipi di inferenza AI e le caratteristiche che li contraddistinguono.
L'inferenza dinamica, nota anche come inferenza online, è il tipo più veloce di inferenza AI e viene utilizzata nelle applicazioni LLM AI più diffuse, come ChatGPT di OpenAI. L'inferenza dinamica produce output e previsioni nell'istante in cui viene richiesto e, successivamente, richiede una bassa latenza e un accesso rapido ai dati per funzionare. Un'altra caratteristica dell'inferenza dinamica è che i risultati possono arrivare così rapidamente che non c'è tempo per esaminarli prima che raggiungano l'utente finale. Questo fa sì che alcune aziende aggiungano un livello di monitoraggio tra il risultato e l'utente finale per garantire il controllo della qualità.
L'inferenza batch genera previsioni di AI offline utilizzando grandi quantità di dati. Con un approccio di inferenza batch, i dati raccolti in precedenza vengono quindi applicati agli algoritmi di ML. Sebbene non sia l'ideale per le situazioni in cui sono richiesti risultati in pochi secondi o meno, l'inferenza batch è adatta per le previsioni di AI che vengono aggiornate regolarmente durante il giorno o nel corso di una settimana, come dashboard di vendita o marketing o valutazioni del rischio.
L'inferenza nello streaming utilizza una pipeline di dati, solitamente forniti attraverso misurazioni regolari dai sensori, e li inserisce in un algoritmo che utilizza i dati per effettuare costantemente calcoli e previsioni. Le applicazioni IoT, come l'AI utilizzata per monitorare una centrale elettrica o il traffico in una città attraverso sensori connessi a Internet, si basano sull'inferenza nello streaming per prendere le proprie decisioni.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 "Why Companies Are Vastly Underprepared For The Risks Posed By AI", Forbes, 15 giugno 2023
2 “Onshoring Semiconductor Production: National Security Versus Economic Efficiency”, Council on Foreign Relations, aprile 2024