My IBM Accedi Iscriviti

Che cos'è un modello AI?

Che cos'è un modello AI?

Un modello AI è un programma che è stato addestrato su un set di dati per riconoscere determinati modelli o prendere determinate decisioni senza ulteriore intervento umano. I modelli di intelligenza artificiale applicano diversi algoritmi agli input di dati pertinenti per raggiungere le attività, o output, per cui sono stati programmati.

In poche parole, un modello di intelligenza artificiale è definito dalla sua capacità di prendere decisioni o previsioni in modo autonomo, piuttosto che simulare l'intelligenza umana. Tra i primi modelli di AI di successo, ci sono stati i programmi per giocare a dama e a scacchi all'inizio degli anni '50: i modelli consentivano ai programmi di fare mosse in risposta diretta all'avversario umano, anziché seguire una serie di mosse prescritte.

Diversi tipi di modelli AI sono più adatti a compiti o domini specifici, per i quali la loro particolare logica decisionale è più utile o rilevante.I sistemi complessi spesso impiegano più modelli contemporaneamente, utilizzando tecniche di apprendimento collettivo come il bagging, il boosting o lo stacking.

Via via che gli strumenti di AI diventano sempre più complessi e versatili, richiedono quantità di dati e potenza di calcolo sempre più impegnative per l'addestramento e l'esecuzione. In risposta, i sistemi progettati per eseguire compiti specifici in un singolo dominio stanno lasciando il posto a foundation model pre-addestrati su grandi set di dati non etichettati e adatti a un'ampia gamma di applicazioni. La versatilità di questi foundation model permette poi loro di essere adattati a specifiche attività.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Algoritmi e modelli

Sebbene i due termini siano spesso usati in modo intercambiabile in questo contesto, non significano esattamente la stessa cosa.

  • Gli algoritmi sono procedure, spesso descritte in linguaggio matematico o pseudocodice, da applicare a un set di dati per raggiungere una determinata funzione o scopo.
  • I modelli sono l'output di un algoritmo che è stato applicato a un set di dati.

In parole povere, un modello di AI viene utilizzato per fare previsioni o prendere decisioni e un algoritmo è la logica con cui il modello di AI opera.

AI Academy

Scegli il modello AI adatto al tuo caso d'uso

La dimensione maggiore non è sempre la scelta più adatta nel caso dei modelli AI. Contattaci per trovare la soluzione giusta per le tue necessità di business. Poi scarica la nostra guida che ti aiuterà a passare all'azione.

Modelli di AI e apprendimento automatico (machine learning)

I modelli di intelligenza artificiale possono automatizzare il processo decisionale, ma solo i modelli capaci di machine learning (ML) sono in grado di ottimizzare autonomamente le proprie prestazioni nel tempo.

Sebbene tutti i modelli di machine learning (ML) siano AI, non tutta l'AI implica il machine learning. I modelli AI più elementari sono costituiti da una serie di istruzioni if-then-else, con regole programmate esplicitamente da un data scientist. Tali modelli sono chiamati motori di regole, sistemi esperti, grafi della conoscenza o AI simbolica.

I modelli di apprendimento automatico utilizzano l'AI statistica piuttosto che l'AI simbolica. Mentre i modelli di intelligenza artificiale basati su regole devono essere programmati in modo esplicito, i modelli ML vengono "addestrati" applicando i loro framework matematici a un set di dati campione i cui punti dati servono come base per le future previsioni del modello nel mondo reale.

Le tecniche dei modelli ML possono essere generalmente suddivise in tre grandi categorie: apprendimento supervisionato, apprendimento non supervisionato e apprendimento per rinforzo.

  • Apprendimento supervisionato:noto anche come machine learning "classico", l'apprendimento supervisionato richiede un esperto umano per etichettare i dati di addestramento. Un data scientist che addestra un modello di riconoscimento delle immagini a riconoscere cani e gatti deve etichettare le immagini campione come "cane" o "gatto", oltre a caratteristiche chiave come la dimensione, la forma o il pelo, che informano queste etichette primarie. Il modello può quindi, durante l'addestramento, utilizzare queste etichette per dedurre le caratteristiche visive tipiche di "cane" e "gatto".
  • Apprendimento non supervisionato: a differenza delle tecniche di apprendimento supervisionato, l'apprendimento non supervisionato non presuppone l'esistenza esterna di risposte "giuste" o "sbagliate" e, quindi, non richiede l'etichettatura. Questi algoritmi rilevano modelli inerenti nei set di dati per raggruppare i punti dati in gruppi e informare le previsioni. Ad esempio, le aziende di e-commerce come Amazon utilizzano modelli di associazione non supervisionati per alimentare i motori di raccomandazione.
  • Apprendimento per rinforzo: nell'apprendimento per rinforzo, un modello apprende in modo olistico per tentativi ed errori attraverso la ricompensa sistematica dell'output corretto (o la penalizzazione dell'output errato). I modelli di rinforzo sono utilizzati per fornire suggerimenti sui social media, per il trading algoritmico delle azioni e persino nelle auto a guida autonoma.

Il deep learning è un sottoinsieme ulteriormente evoluto dell'apprendimento non supervisionato in cui la struttura delle reti neurali tenta di imitare quella del cervello umano. Più livelli di nodi interconnessi inseriscono progressivamente i dati, estraggono le caratteristiche principali, identificano le relazioni e affinano le decisioni in un processo chiamato "propagazione in avanti". Un altro processo, chiamato "retropropagazione", applica modelli che calcolano gli errori e regolano di conseguenza i pesi e i bias del sistema. Le applicazioni di AI più avanzate, come i modelli linguistici di grandi dimensioni (LLM) che alimentano i chatbot moderni, utilizzano il deep learning. Tutto questo richiede enormi risorse computazionali.

Modelli generativi e modelli discriminativi

Un modo per differenziare i modelli di apprendimento automatico è la loro metodologia fondamentale: la maggior parte può essere classificata come generativa o discriminativa. La distinzione sta nel modo in cui modellano i dati in un determinato spazio.

Modelli generativi

Algoritmi generativi, che di solito comportano l'apprendimento non supervisionato, modellano la distribuzione dei punti dati, con l'obiettivo di prevedere la probabilità congiunta P(x,y) di un determinato punto dati che appare in un particolare spazio. Un modello di computer vision generativa potrebbe quindi identificare correlazioni come "le cose che sembrano auto di solito hanno quattro ruote" o "è improbabile che gli occhi appaiano sopra le sopracciglia".

Queste previsioni possono informare la generazione di risultati che il modello ritiene altamente probabili. Ad esempio, un modello generativo addestrato su dati di testo può potenziare l'ortografia e i suggerimenti di completamento automatico; passando a un livello più complesso, può generare un testo completamente nuovo. In sostanza, quando un LLM produce un testo, ha calcolato un'alta probabilità che quella sequenza di parole sia stata assemblata in risposta al prompt che gli è stato dato.

Altri casi d'uso comuni per i modelli generativi sono la sintesi di immagini, la composizione musicale, il trasferimento di stile e la traduzione linguistica.

Esempi di modelli generativi includono:

  • Modelli di diffusione: i modelli di diffusione aggiungono gradualmente rumore gaussiano ai dati di addestramento fino a renderli irriconoscibili, quindi apprendono un processo di "denoising" inverso in grado di sintetizzare l'output (di solito immagini) dal rumore casuale di partenza.
  • Autoencoder variazionali (VAE): i VAE sono costituiti da un encoder che comprime i dati di input e da un decoder che impara a invertire il processo e a mappare la probabile distribuzione dei dati.
  • Modelli trasformativi: i modelli trasformativi utilizzano tecniche matematiche chiamate "attenzione" o "auto-attenzione" per identificare come i diversi elementi di una serie di dati si influenzino a vicenda. L'acronimo "GPT" in Chat-GPT di OpenAI sta per "trasformatore generativo pre-addestrato" (Generative Pretrained Transformer).

Modelli discriminativi

Gli algoritmi discriminativi , che di solito comportano un apprendimento supervisionato, modellano i confini tra le classi di dati (o "confini decisionali"), con l'obiettivo di prevedere la probabilità condizionale P(y|x) che un determinato punto dati (x) rientri in una certa classe (y). Un modello di computer vision discriminante potrebbe apprendere la differenza tra "automobile" e "non automobile" individuando alcune differenze chiave (come "se non ha le ruote, non è un'automobile"), il che gli consente di ignorare molte correlazioni di cui un modello generativo deve tenere conto. I modelli discriminativi tendono, quindi, a richiedere meno potenza di calcolo.

I modelli discriminanti sono naturalmente adatti per attività di classificazione come l'analisi del sentiment, tuttavia hanno molti usi. Ad esempio, i modelli ad albero decisionale e foresta casuale suddividono i processi decisionali complessi in una serie di nodi, in cui ogni "foglia" rappresenta una potenziale decisione di classificazione.

Casi d’uso

Sebbene i modelli discriminativi o generativi possano generalmente superarsi a vicenda per determinati casi d'uso reali, molte attività possono essere svolte con entrambi i tipi di modelli. Ad esempio, i modelli discriminativi hanno molti usi nell'elaborazione del linguaggio naturale (NLP) e spesso superano l'AI generativa per attività come la traduzione automatica (che comporta la generazione di testo tradotto).

Allo stesso modo, i modelli generativi possono essere utilizzati per la classificazione utilizzando il teorema di Bayes. Invece di determinare da che parte di un confine decisionale si trova un'istanza (come farebbe un modello discriminativo), un modello generativo potrebbe determinare la probabilità di ciascuna classe che genera l'istanza e scegliere quella con la probabilità più alta.

Molti sistemi di AI impiegano insieme entrambi i metodi. In una rete generativa avversaria, ad esempio, un modello generativo genera dati campione e un modello discriminativo determina se tali dati sono "reali" o "falsi". L'output del modello discriminativo viene utilizzato per addestrare il modello generativo fino a quando il discriminatore non è più in grado di distinguere i dati generati come "falsi".

Modelli di classificazione e modelli di regressione

Un altro modo per categorizzare i modelli è in base alla natura delle attività per cui vengono utilizzati. La maggior parte degli algoritmi classici del modello di intelligenza artificiale esegue la classificazione o la regressione. Alcuni sono adatti per entrambe e la maggior parte dei modelli di base sfrutta entrambi i tipi di funzioni.

Questa terminologia può, a volte, creare confusione. Ad esempio, la regressione logistica è un modello discriminante utilizzato per la classificazione.

Modelli di regressione

I modelli di regressione prevedono valori continui (come prezzo, età, dimensioni o tempo). Sono principalmente usati per determinare la relazione tra una o più variabili indipendenti (x) e una variabile dipendente (y): dato x, predicono il valore di y.

  • Algoritmi come la regressione lineare, e le relative varianti come la regressione quantile, sono utili per attività come il forecasting, l'analisi dell'elasticità dei prezzi e la valutazione del rischio.
  • Algoritmi come la regressione polinomiale e la regressione a vettori di supporto (SVR) modellano complesse relazioni non lineari tra le variabili.
  • Alcuni modelli generativi, come l'autoregressione e gli autoencoder variazionali, tengono conto delle relazioni correlative tra i valori passati e futuri, così come delle relazioni causali . Questo li rende particolarmente utili per la previsione di scenari metereologici e per la previsione di eventi climatici estremi.

Modelli di classificazione

I modelli di classificazione prevedono valori discreti . Pertanto, vengono utilizzati principalmente per determinare un'etichetta appropriata o per categorizzare (ad esempio, classificare). Può trattarsi di una classificazione binaria, ad esempio "sì o no", "accetta o rifiuta", o di una classificazione multi-classe (ad esempio, un motore di raccomandazione che suggerisce il prodotto A, B, C o D).

Gli algoritmi di classificazione trovano un'ampia gamma di usi, dalla categorizzazione semplice all'automazione delle estrazioni di caratteristiche nelle reti di deep learning, fino ai progressi in campo sanitario come la classificazione delle immagini diagnostiche in radiologia.

Alcuni esempi comuni sono:

  • Naïve Bayes: un algoritmo di apprendimento supervisionato generativo comunemente usato nel filtro antispam e nella classificazione dei documenti.
  • Analisi discriminante lineare: utilizzata per risolvere sovrapposizioni contraddittorie tra più caratteristiche che influiscono sulla classificazione.
  • Regressione logistica: stima probabilità continue che vengono poi utilizzate come proxy per gli intervalli di classificazione.

Addestramento di modelli AI

L'"apprendimento" nel machine learning si ottiene addestrando i modelli su set di dati campione. Le tendenze probabilistiche e le correlazioni individuate nei set di dati campione vengono poi applicate alle prestazioni della funzione del sistema.

Nell'apprendimento supervisionato e semi-supervisionato, questi dati di addestramento devono essere accuratamente etichettati dai data scientist per ottimizzare i risultati. Con una corretta estrazione delle caratteristiche, l'apprendimento supervisionato richiede una quantità di dati di addestramento complessivamente inferiore rispetto all'apprendimento non supervisionato.

Idealmente, i modelli di ML vengono addestrati su dati reali. Questo, intuitivamente, garantisce che il modello rifletta le circostanze reali che è stato progettato per analizzare o replicare. Ma affidarsi esclusivamente ai dati del mondo reale non è sempre possibile, pratico o ottimale.

Aumento delle dimensioni e della complessità del modello

Più parametri ha un modello, più dati sono necessari per addestrarlo. Via via che i modelli di deep learning aumentano di dimensione, l'acquisizione di questi dati diventa sempre più difficile. Ciò è particolarmente evidente negli LLM: sia GPT-3 di Open-AI che BLOOM open source hanno oltre 175 miliardi di parametri.

Nonostante la praticità, l'utilizzo di dati disponibili al pubblico può introdurre problemi normativi, come quando i dati devono essere resi anonimi, così come problemi pratici. Ad esempio, i modelli linguistici addestrati sui thread dei social media potrebbero “apprendere” abitudini o imprecisioni non ideali in un contesto aziendale.

I dati sintetici offrono una soluzione alternativa: un insieme più piccolo di dati reali viene utilizzato per generare dati di addestramento che somigliano molto all'originale e che evitano i problemi di privacy.

Eliminazione del bias

I modelli di ML addestrati su dati del mondo reale assorbiranno inevitabilmente i pregiudizi sociali che si rifletteranno in tali dati. Se non eliminati, tali pregiudizi perpetueranno ed esacerberanno l'iniquità in qualsiasi campo informato da tali modelli, come l'assistenza sanitaria o le assunzioni. La ricerca nel campo della data science ha prodotto algoritmi come FairIJ e tecniche di perfezionamento dei modelli come FairReprogram per affrontare l'iniquità intrinseca dei dati.

Overfitting e underfitting

L'overfitting si verifica quando un modello di ML si adatta troppo ai dati di addestramento, generando informazioni irrilevanti (o "rumore") nel set di dati di esempio che influenzano le prestazioni del modello. L'underfitting è il contrario, ovvero un addestramento improprio o inadeguato.

Foundation Model

Chiamati anche modelli di base o modelli pre-addestrati, i foundation model sono modelli di deep learning pre-addestrati su set di dati su larga scala per apprendere caratteristiche e modelli generali. Servono come punto di partenza da perfezionare o adattare per applicazioni AI più specifiche.

Invece di costruire modelli da zero, gli sviluppatori possono modificare gli strati della rete neurale, regolare i parametri o adattare le architetture per soddisfare le esigenze specifiche del dominio. Se a ciò si aggiunge l'ampiezza e la profondità delle conoscenze e delle competenze di un modello ampio e collaudato, si ottiene un notevole risparmio di tempo e di risorse nell'addestramento dei modelli. I foundation model consentono, quindi, uno sviluppo e un'implementazione più rapidi dei sistemi di AI.

La messa a punto di modelli pre-addestrati per attività specializzate ha recentemente ceduto il passo al prompt-tuning, che introduce spunti front-end nel modello per guidarlo verso il tipo di decisione o previsione desiderati.

Secondo David Cox, co-direttore del MIT-IBM Watson AI Lab, la ridistribuzione di un modello di deep learning addestrato (anziché addestrare o riqualificare un nuovo modello) può ridurre il consumo di computer ed energia di oltre 1.000 volte, risparmiando così costi significativi 1.

Test dei modelli di AI

I test sofisticati sono essenziali per l'ottimizzazione, in quanto misurano se un modello è ben addestrato per raggiungere l'attività prevista. Modelli e attività diversi si prestano a metriche e metodologie diverse.

Convalida incrociata

Il test delle prestazioni di un modello richiede un gruppo di controllo a cui confrontarlo, poiché testare un modello rispetto ai dati con cui è stato addestrato può portare all'overfitting. Nella convalida incrociata, alcune parti dei dati di addestramento vengono tenute da parte o ricampionate per creare il gruppo di controllo. Le varianti includono metodi non esaustivi come la convalida incrociata k-fold, holdout e monte carlo o metodi esaustivi come la convalida incrociata leave-p-out.

Metriche dei modelli di classificazione

Queste metriche comuni incorporano valori di risultati discreti come veri positivi (TP), veri negativi (TN), falsi positivi (FP) e falsi negativi (FN).

  • L'accuratezza è il rapporto tra le previsioni corrette e le previsioni totali: (TP+TN) / (TP+TN+FP+FN). Non funziona bene per set di dati sbilanciati.
  • La precisione misura la frequenza con cui le previsioni positive sono accurate: TP/(TP+FP).
  • Il richiamo misura la frequenza con cui i positivi vengono acquisiti con successo: TP/(TP+FN).
  • Il punteggio F1 è la media armonica della precisione e del richiamo: (2×Precisione×Richiamo)/(Precisione+Richiamo). Bilancia i compromessi tra precisione (che incoraggia i falsi negativi) e richiamo (che incoraggia i falsi positivi).
  • Una matrice di confusione rappresenta visivamente l'attendibilità (o la confusione) dell'algoritmo per ogni potenziale classificazione.

Metriche del modello di regressione2

Poiché gli algoritmi di regressione prevedono valori continui piuttosto che valori discreti, sono misurati da metriche diverse in cui "N" rappresenta il numero di osservazioni. Quelle che seguono sono metriche comunemente utilizzate per valutare i modelli di regressione.

  • L'errore medio assoluto (MAE) misura la differenza media assoluta tra i valori previsti (ypred) e i valori effettivi (yactual) con la formula: ∑(ypred — yactual) / N.
  • L'errore quadratico medio (MSE) eleva al quadrato l'errore medio per penalizzare in modo aggressivo gli outlier: ∑(ypred -yactual)2 / N.
  • L'errore quadratico medio (RSME) misura le deviazioni standard nella stessa unità dei risultati: √ (∑(ypred - yactual)2 / N).
  • L'errore percentuale assoluto medio (MAPE) esprime l'errore medio in percentuale.

Implementazione dei modelli di AI

Per implementare ed eseguire un modello di AI, è necessario un dispositivo informatico o un server con una potenza di elaborazione e una capacità di archiviazione sufficienti. L'incapacità di pianificare adeguatamente le pipeline di AI e le risorse di calcolo può far sì che prototipi altrimenti di successo non riescano ad andare oltre la fase di proof-of-concept.

  • I framework di machine learning open source come PyTorch, Tensorflow e Caffe2 possono eseguire modelli ML con poche righe di codice.
  • Le unità di elaborazione centrale (CPU) sono una fonte efficiente di potenza di calcolo per l'apprendimento di algoritmi che non richiedono un'ampia elaborazione parallela.
  • Le unità di elaborazione grafica (GPU) hanno una maggiore capacità di elaborazione parallela, il che le rende più adatte agli enormi set di dati e alla complessità matematica delle neural networks di deep learning.
Soluzioni correlate

Soluzioni correlate

Foundation Model

Esplora la libreria IBM di foundation model nel portafoglio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai Esplora i modelli AI Granite di IBM
Note a piè di pagina

1 "What is prompt tuning?", IBM Research, 15 febbraio 2023.

2 "Machine learning model evaluation", Geeksforgeeks.org, 2022.