L'inferenza AI è la capacità dei modelli AI addestrati di riconoscere schemi e trarre conclusioni da informazioni che non hanno mai visto prima.
L'inferenza AI è fondamentale per il progresso delle tecnologie di AI ed è alla base delle sue applicazioni più interessanti, come l'AI generativa, la funzionalità alla base della popolare applicazione ChatGPT. I modelli AI si basano sull'inferenza AI per imitare il modo in cui le persone pensano, ragionano e rispondono alle richieste.
L'inferenza AI inizia addestrando un modello AI su un ampio set di dati con algoritmi decisionali. I modelli AI sono costituiti da algoritmi decisionali addestrati su reti neurali, ovvero modelli linguistici di grandi dimensioni (LLM), costruiti come il cervello umano. Ad esempio, un modello AI progettato per il riconoscimento facciale potrebbe essere addestrato su milioni di immagini del volto umano. Alla fine, impara a identificare con precisione caratteristiche come il colore degli occhi, la forma del naso e il colore dei capelli, e può quindi utilizzarle per riconoscere un individuo in un'immagine.
Sebbene strettamente correlati, l'inferenza AI e il machine learning (ML) sono due fasi diverse del ciclo di vita dei modelli AI.
Se i modelli AI non sono addestrati su un set di dati solido e appropriato per la loro applicazione, semplicemente non risultano efficaci. Data la natura sensibile della tecnologia e l'attenzione con cui viene esaminata dalla stampa1, le aziende devono essere caute. Ma con applicazioni che abbracciano diversi settori e offrono il potenziale della trasformazione digitale e dell'innovazione scalabile, i suoi vantaggi sono numerosi:
Sebbene i vantaggi dell'inferenza AI siano numerosi, essendo una tecnologia recente e in rapida crescita, non è priva di sfide. Ecco alcuni dei problemi che le aziende che intendono investire nell'AI devono considerare:
L'inferenza AI è un processo complesso che prevede l'addestramento di un modello AI su set di dati appropriati fino a quando non è in grado di dedurre risposte accurate. Si tratta di un processo ad alta intensità di calcolo, che richiede hardware e software specializzati. Prima di esaminare il processo di addestramento dei modelli AI per l'inferenza AI, esploriamo alcune delle componenti hardware specializzate che lo rendono possibile:
L'unità di elaborazione centrale (CPU) è il componente funzionale principale di un computer. Nell'addestramento e nell'inferenza AI, la CPU esegue il sistema operativo e aiuta a gestire le risorse di calcolo necessarie per l'addestramento.
Le unità di elaborazione grafica (GPU), o circuiti elettronici costruiti per la computer grafica e l'elaborazione delle immagini ad alte prestazioni, sono utilizzate in vari dispositivi, tra cui schede video, schede madri e telefoni cellulari. Tuttavia, grazie alle loro capacità di elaborazione parallela, vengono sempre più utilizzate anche nell'addestramento dei modelli AI. Un metodo consiste nel collegare più GPU a un singolo sistema di AI per aumentarne la potenza di elaborazione.
Gli FPGA (Field-Programmable Gate Array) sono acceleratori AI altamente personalizzabili che richiedono conoscenze specialistiche per essere riprogrammati per uno scopo specifico. A differenza di altri acceleratori AI, gli FPGA hanno un design unico che si adatta a una funzione specifica, che spesso ha a che fare con l'elaborazione dei dati in tempo reale, che è fondamentale per l'inferenza AI. Gli FPGA sono riprogrammabili a livello hardware, consentendo un livello di personalizzazione più elevato.
Gli ASIC sono acceleratori AI progettati per uno scopo o un workload specifico, come il deep learning nel caso dell'acceleratore ASIC WSE-3 prodotto da Cerebras. Gli ASIC aiutano i data scientist a velocizzare le capacità di inferenza AI e a ridurre i costi. A differenza degli FPGA, gli ASIC non possono essere riprogrammati, ma poiché sono costruiti per un unico scopo, in genere superano gli altri acceleratori più generici. Un esempio di questi è la Tensor Processing Unit (TPU) di Google, sviluppata per il machine learning delle reti neurali utilizzando il software TensorFlow di Google.
Le aziende interessate a investire in applicazioni di AI come parte del loro percorso di trasformazione digitale dovrebbero informarsi sui vantaggi e le sfide dell'inferenza AI. Per coloro che hanno esaminato a fondo le sue varie applicazioni e sono pronti a metterla in pratica, ecco cinque passaggi per implementare un'inferenza AI efficace:
La preparazione dei dati è fondamentale per creare applicazioni e modelli AI efficaci. Le aziende possono creare set di dati per l'addestramento dei modelli AI utilizzando dati interni o esterni alla propria organizzazione. Per ottenere risultati ottimali, è consigliabile utilizzare una combinazione di entrambi. Un altro aspetto fondamentale dell'assemblaggio dei dati su cui verrà addestrata l'AI è la pulizia dei dati,ovvero la rimozione di eventuali voci duplicate e la risoluzione di eventuali problemi di formattazione.
Una volta assemblato il set di dati, il passo successivo è la selezione del modello AI più adatto alla propria applicazione. I modelli vanno dal semplice al complesso, con quelli più complessi in grado di accogliere più input e di dedurre a un livello più sottile rispetto a quelli meno complessi. Durante questa fase, è importante avere ben chiare le proprie esigenze, poiché l'addestramento di modelli più complessi può richiedere più tempo, denaro e altre risorse rispetto all'addestramento di quelli più semplici.
Per ottenere i risultati desiderati da un'applicazione AI, le aziende devono generalmente affrontare numerosi e rigorosi cicli di addestramento dell'AI. Man mano che i modelli vengono addestrati, l'accuratezza delle loro inferenze diventa più nitida e la quantità di risorse di elaborazione necessarie per raggiungere tali inferenze, come potenza di calcolo e latenza, diminuisce. Man mano che il modello matura, passa a una nuova fase in cui può iniziare a fare inferenze su nuovi dati a partire dai dati su cui è stato addestrato. Questa è una fase entusiasmante, perché si può vedere il modello iniziare a funzionare nel modo in cui è stato progettato.
Prima che il modello venga considerato operativo, è importante controllare e monitorare gli output alla ricerca di eventuali imprecisioni, distorsioni o problemi di privacy dei dati. La post-elaborazione, come viene talvolta chiamata questa fase, consiste in un processo passo-passo per garantire l'accuratezza del modello. La fase di post-elaborazione è il momento in cui si crea una metodologia che garantisca che l'AI fornisca le risposte desiderate e funzioni nel modo previsto.
Dopo un rigoroso monitoraggio e post-elaborazione, il modello AI è pronto per essere distribuito per l'uso aziendale. Quest'ultima fase comprende l'implementazione dell'architettura e dei sistemi di dati che consentiranno al modello AI di funzionare, nonché la creazione di eventuali procedure di gestione delle modifiche per istruire gli stakeholder su come utilizzare l'applicazione di AI nei loro ruoli quotidiani.
A seconda del tipo di applicazione di AI di cui le aziende hanno bisogno, esistono diversi tipi di inferenza AI tra cui scegliere. Se un'azienda sta cercando di creare un modello AI da utilizzare con un'applicazione Internet of Things (IoT), l'inferenza in streaming (con le sue capacità di misurazione) è probabilmente la scelta più appropriata. Tuttavia, se un modello AI è progettato per interagire con gli esseri umani, l'inferenza online (con le sue capacità LLM) sarebbe più adatta. Ecco i tre tipi di inferenza AI e le caratteristiche che li contraddistinguono.
L'inferenza dinamica, nota anche come inferenza online, è il tipo più veloce di inferenza AI e viene utilizzata nelle applicazioni LLM AI più diffuse, come ChatGPT di OpenAI. L'inferenza dinamica produce output e previsioni nell'istante in cui viene richiesto e, successivamente, richiede una bassa latenza e un accesso rapido ai dati per funzionare. Un'altra caratteristica dell'inferenza dinamica è che gli output possono arrivare così rapidamente che non c'è tempo per esaminarli prima che raggiungano l'utente finale. Questo fa sì che alcune aziende aggiungano un livello di monitoraggio tra l'output e l'utente finale per garantire il controllo della qualità.
L'inferenza batch genera previsioni di AI offline utilizzando grandi quantità di dati. Con un approccio di inferenza batch, i dati raccolti in precedenza vengono quindi applicati agli algoritmi di ML. Sebbene non sia l'ideale per le situazioni in cui sono richiesti output in pochi secondi o meno, l'inferenza batch è adatta per le previsioni di AI che vengono aggiornate regolarmente durante il giorno o nel corso di una settimana, come dashboard di vendita o marketing o valutazioni del rischio.
L'inferenza in streaming utilizza una pipeline di dati, solitamente forniti attraverso misurazioni regolari dai sensori, e li trasmette a un algoritmo che utilizza i dati per effettuare continuamente calcoli e previsioni. Le applicazioni IoT, come l'AI utilizzata per monitorare una centrale elettrica o il traffico in una città attraverso sensori connessi a internet, si basano sull'inferenza in streaming per prendere decisioni.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell’AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.
1 "Why Companies Are Vastly Underprepared For The Risks Posed By AI", Forbes, 15 giugno 2023
2 "Onshoring Semiconductor Production: National Security Versus Economic Efficiency", Council on Foreign Relations, aprile 2024
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io