Home topics Modello AI Che cos'è un modello AI?
Esplora i foundation model di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Illustrazione di un uomo alla scrivania che lavora con diverse fonti di informazione
Che cos'è un modello AI?

Un modello AI è un programma che è stato addestrato su un set di dati per riconoscere determinati modelli o prendere determinate decisioni senza ulteriore intervento umano. I modelli di intelligenza artificiale applicano diversi algoritmi agli input di dati pertinenti per raggiungere le attività, o output, per cui sono stati programmati.

In poche parole, un modello di intelligenza artificiale è definito dalla sua capacità di prendere decisioni o previsioni in modo autonomo, piuttosto che simulare l'intelligenza umana. Tra i primi modelli di AI di successo, ci sono stati i programmi per giocare a dama e a scacchi all'inizio degli anni '50: i modelli consentivano ai programmi di fare mosse in risposta diretta all'avversario umano, anziché seguire una serie di mosse prescritte.

Diversi tipi di modelli di AI sono più adatti a compiti o domini specifici, per i quali la loro particolare logica decisionale è più utile o rilevante.I sistemi complessi spesso impiegano più modelli contemporaneamente, utilizzando tecniche di apprendimento collettivo come il bagging, il boosting o lo stacking.

Man mano che gli strumenti di AI diventano sempre più complessi e versatili, richiedono quantità di dati e potenza di calcolo sempre più impegnative per l'addestramento e l'esecuzione. In risposta, i sistemi progettati per eseguire compiti specifici in un singolo dominio stanno lasciando il posto a foundation model, pre-addestrati su grandi insiemi di dati non etichettati e e in grado di svolgere un'ampia gamma di applicazioni. La versatilità di questi foundation model gli permette, poi, di essere adattati a specifici.

Algoritmi e modelli

Sebbene i due termini siano spesso usati in modo intercambiabile in questo contesto, non significano esattamente la stessa cosa.

  • Gli algoritmi sono procedure, spesso descritte in linguaggio matematico o pseudocodice, da applicare a un set di dati per raggiungere una determinata funzione o scopo.
  • I modelli sono l'output di un algoritmo che è stato applicato a un set di dati.

In parole povere, un modello di AI viene utilizzato per fare previsioni o prendere decisioni e un algoritmo è la logica con cui il modello di AI opera.

watsonx.ai

Studio aziendale di nuova generazione per i builder AI con cui addestrare, convalidare, adattare e implementare modelli di AI.

Contenuti correlati

Meta lancia i nuovi modelli Llama 3.1

Modelli di AI e apprendimento automatico (machine learning)

I modelli di intelligenza artificiale possono automatizzare il processo decisionale, ma solo i modelli capaci di machine learning (ML) sono in grado di ottimizzare autonomamente le proprie prestazioni nel tempo.

Sebbene tutti i modelli di ML siano AI, non tutta l'AI coinvolge l'apprendimento automatico (ML). I modelli di intelligenza artificiale più elementari sono costituiti da una serie di istruzioni if-then-else, con regole programmate esplicitamente da un data scientist. Tali modelli sono chiamati alternativamente motori di regole, sistemi esperti, grafi della conoscenza o AI simbolica.

I modelli di apprendimento automatico utilizzano l'AI statistica piuttosto che l'AI simbolica. Mentre i modelli di intelligenza artificiale basati su regole devono essere programmati in modo esplicito, i modelli ML vengono "addestrati" applicando i loro framework matematici a un set di dati campione i cui punti dati servono come base per le future previsioni del modello nel mondo reale.

Le tecniche dei modelli ML possono essere generalmente suddivise in tre grandi categorie: apprendimento supervisionato, apprendimento non supervisionato e apprendimento per rinforzo.

  • Apprendimento supervisionato: noto anche come apprendimento automatico "classico", l'apprendimento supervisionato richiede un esperto umano per etichettare i dati di addestramento. Un data scientist che addestra un modello di riconoscimento delle immagini per riconoscere cani e gatti deve etichettare le immagini campione come "cane" o "gatto", oltre a caratteristiche chiave come la dimensione, la forma o il pelo, che informano queste etichette primarie.  Il modello può quindi, durante l'addestramento, utilizzare queste etichette per dedurre le caratteristiche visive tipiche di "cane" e "gatto".
  • Apprendimento non supervisionato: a differenza delle tecniche di apprendimento supervisionato, l'apprendimento non supervisionato non presuppone l'esistenza esterna di risposte "giuste" o "sbagliate" e, quindi, non richiede l'etichettatura. Questi algoritmi rilevano modelli intrinseci nei set di dati per raggruppare i punti di dati in gruppi e informare le previsioni. Ad esempio, le aziende di e-commerce come Amazon utilizzano modelli di associazione non supervisionati per alimentare i motori di raccomandazione.
  • Apprendimento per rinforzo: nell'apprendimento per rinforzo, un modello apprende in modo olistico per tentativi ed errori attraverso la ricompensa sistematica dell'output corretto (o la penalizzazione dell'output errato). I modelli di rinforzo vengono utilizzati per fornire suggerimenti sui social media, per il trading algoritmico di azioni e persino nelle auto a guida autonoma.

Il deep learning è un sottoinsieme ulteriormente evoluto dell'apprendimento non supervisionato la cui struttura delle neural networks tenta di imitare quella del cervello umano. Più livelli di nodi interconnessi ingeriscono progressivamente i dati, estraggono le caratteristiche chiave, identificano le relazioni e affinano le decisioni in un processo chiamato propagazione in avanti. Un altro processo chiamato retropropagazione applica modelli che calcolano gli errori e regolano di conseguenza i pesi e i bias del sistema. Le applicazioni di intelligenza artificiale più avanzate, come i modelli linguistici di grandi dimensioni (LLM) che alimentano i chatbot moderni, utilizzano il deep learning. Richiede enormi risorse computazionali.

Leggi l'articolo: "Confronto tra AI, machine learning, deep learning e reti neurali: qual è la differenza?"
Legga l'articolo: "Apprendimento supervisionato e non supervisionato: Qual è la differenza?"
Modelli generativi e modelli discriminativi

Un modo per differenziare i modelli di apprendimento automatico è la loro metodologia fondamentale: la maggior parte può essere classificata come generativa o discriminativa. La distinzione sta nel modo in cui modellano i dati in un determinato spazio.

Modelli generativi
Gli algoritmi generativi
, che di solito comportano l'apprendimento non supervisionato, modellano la distribuzione dei punti dati, con l'obiettivo di prevedere la probabilità congiunta P(x,y) di un determinato punto dati che appare in un particolare spazio. Un modello di computer vision generativa potrebbe quindi identificare correlazioni come "le cose che sembrano auto di solito hanno quattro ruote" o "è improbabile che gli occhi appaiano sopra le sopracciglia".

Queste previsioni possono informare la generazione di risultati che il modello ritiene altamente probabili. Ad esempio, un modello generativo addestrato su dati di testo può potenziare l'ortografia e i suggerimenti di completamento automatico; passando a un livello più complesso, può generare un testo completamente nuovo. In sostanza, quando un LLM produce un testo, ha calcolato un'alta probabilità che quella sequenza di parole sia stata assemblata in risposta al prompt che gli è stato dato.

Altri casi d'uso comuni per i modelli generativi sono la sintesi di immagini, la composizione musicale, il trasferimento di stile e la traduzione linguistica.

Esempi di modelli generativi includono:

  • Modelli di diffusione: i modelli di diffusione aggiungono gradualmente rumore gaussiano ai dati di addestramento fino a renderli irriconoscibili, quindi apprendono un processo di "denoising" inverso in grado di sintetizzare l'output (di solito immagini) dal rumore casuale di partenza.
  • Autoencoder variazionali (VAE): i VAE sono costituiti da un codificatore che comprime i dati di input e un decoder che impara a invertire il processo e mappare la probabile distribuzione dei dati.
  • Modelli trasformatori: i modelli trasformatori utilizzano tecniche matematiche chiamate "attenzione" o "auto-attenzione" per identificare come i diversi elementi di una serie di dati si influenzino a vicenda. L'acronimo "GPT" in Chat-GPT di OpenAI sta per "trasformatore generativo pre-addestrato" (Generative Pretrained Transformer).

Modelli discriminativi
Gli algoritmi discriminativi , che di solito comportano l'apprendimento supervisionato, modellano i confini tra le classi di dati (o "confini decisionali"), con l'obiettivo di prevedere la probabilità condizionata P(y|x) di un dato punto dati (x) che rientra in una certa classe (y). Un modello di computer vision discriminante potrebbe apprendere la differenza tra "auto" e "non auto" individuando alcune differenze chiave (come "se non ha le ruote, non è un'auto"), il che gli consente di ignorare molte correlazioni di cui un modello generativo deve tenere conto. I modelli discriminativi tendono, quindi, a richiedere meno potenza di calcolo.

I modelli discriminanti sono, naturalmente, adatti per attività di classificazione come la sentiment analysis, ma hanno molti usi. Ad esempio, i modelli ad albero decisionale e a foresta casuale suddividono i processi decisionali complessi in una serie di nodi, in cui ogni "foglia" rappresenta una potenziale decisione di classificazione.

Casi d'uso
Sebbene i modelli discriminativi o generativi possano generalmente superarsi a vicenda per determinati casi d'uso reali, molti compiti possono essere svolti con entrambi i tipi di modelli. Ad esempio, i modelli discriminativi hanno molti usi nell'elaborazione del linguaggio naturale (PNL) e spesso superano l'AI generativa per attività come la traduzione automatica (che comporta la generazione di testo tradotto).

Allo stesso modo, i modelli generativi possono essere utilizzati per la classificazione utilizzando il teorema di Bayes. Invece di determinare da che parte di un confine decisionale si trova un'istanza (come farebbe un modello discriminativo), un modello generativo potrebbe determinare la probabilità di ciascuna classe che genera l'istanza e scegliere quella con la probabilità più alta.

Molti sistemi di intelligenza artificiale impiegano insieme entrambi i metodi. In una rete generativa antagonista, ad esempio, un modello generativo genera dati campione e un modello discriminativo determina se tali dati sono "reali" o "falsi". L'output del modello discriminativo viene utilizzato per addestrare il modello generativo fino a quando il discriminatore non è più in grado di distinguere i dati generati come "falsi".

Modelli di classificazione e modelli di regressione

Un altro modo per categorizzare i modelli è in base alla natura delle attività per cui vengono utilizzati. La maggior parte degli algoritmi classici del modello di intelligenza artificiale esegue la classificazione o la regressione. Alcuni sono adatti per entrambe e la maggior parte dei modelli di base sfrutta entrambi i tipi di funzioni.

Questa terminologia può, a volte, creare confusione. Ad esempio, la regressione è un modello discriminante utilizzato per la classificazione.

Modelli di regressione
Modelli di regressione prevedono valori continui (come prezzo, età, dimensioni o tempo). Vengono utilizzati principalmente per determinare la relazione tra una o più variabili indipendenti (x) e una variabile dipendente (y): data x, predicono il valore di y.

  • Algoritmi come la regressione lineare, e le relative varianti come la regressione quantile, sono utili per compiti come la previsione, l'analisi dell'elasticità dei prezzi e la valutazione del rischio.
  • Algoritmi come la regressione polinomiale e la regressione a vettori di supporto (SVR) modellano complesse relazioni non lineari tra le variabili.
  • Alcuni modelli generativi, come l'autoregressione e gli autoencoder variazionali, tengono conto non solo delle relazioni correlative tra valori passati e futuri, ma anche delle relazioni causali . Ciò li rende particolarmente utili per la previsione di scenari meteorologici e la previsione di eventi climatici estremi.    

Modelli di classificazione
I modelli di classificazione prevedono valori discreti . Pertanto, vengono utilizzati principalmente per determinare un'etichetta appropriata o per categorizzare (ad esempio, classificare). Può trattarsi di una classificazione binaria , ad esempio "sì o no", "accetta o rifiuta", o di una classificazione multi-classe (ad esempio, un motore di raccomandazione che suggerisce il prodotto A, B, C o D).

Gli algoritmi di classificazione trovano un'ampia gamma di usi, dalla categorizzazione semplice all'automazione delle estrazioni di caratteristiche nelle reti di deep learning, fino ai progressi in campo sanitario come la classificazione delle immagini diagnostiche in radiologia.

Alcuni esempi comuni sono:

  • Naive Bayes: un algoritmo generativo di apprendimento supervisionato comunemente usato nel filtro antispam e nella classificazione dei documenti.
  • Analisi discriminante lineare: utilizzata per risolvere sovrapposizioni contraddittorie tra più caratteristiche che influiscono sulla classificazione.
  • Regressione logistica: stima probabilità continue che vengono poi utilizzate come proxy per gli intervalli di classificazione.
Addestramento di modelli AI

L'"apprendimento" nel machine learning si ottiene addestrando i modelli su set di dati campione. Le tendenze probabilistiche e le correlazioni individuate nei set di dati campione vengono poi applicate alle prestazioni della funzione del sistema.

Nell'apprendimento supervisionato e semi-supervisionato, questi dati di addestramento devono essere accuratamente etichettati dai data scientist per ottimizzare i risultati. Con una corretta estrazione delle caratteristiche, l'apprendimento supervisionato richiede una quantità di dati di addestramento complessivamente inferiore rispetto all'apprendimento non supervisionato.

Idealmente, i modelli di ML vengono addestrati su dati reali. Questo, intuitivamente, garantisce che il modello rifletta le circostanze reali che è stato progettato per analizzare o replicare. Ma affidarsi esclusivamente ai dati del mondo reale non è sempre possibile, pratico o ottimale.

Aumento delle dimensioni e della complessità del modello
Più parametri ha un modello, più dati sono necessari per addestrarlo. Man mano che i modelli di deep learning crescono di dimensioni, l'acquisizione di questi dati diventa sempre più difficile. Ciò è particolarmente evidente negli LLM: sia il GPT-3 di Open-AI che l'open source BLOOM hanno oltre 175 miliardi di parametri.

Nonostante la praticità, l'utilizzo di dati disponibili al pubblico può introdurre problemi normativi, come quando i dati devono essere resi anonimi, così come problemi pratici. Ad esempio, i modelli linguistici addestrati sui thread dei social media potrebbero “apprendere” abitudini o imprecisioni non ideali in un contesto aziendale.

I dati sintetici offrono una soluzione alternativa: un insieme più piccolo di dati reali viene utilizzato per generare dati di addestramento che assomigliano molto all'originale e che evitano i problemi di privacy.

Eliminazione dei bias
I modelli di ML addestrati su dati del mondo reale assorbiranno inevitabilmente i pregiudizi sociali che si rifletteranno in tali dati. Se non eliminati, tali pregiudizi perpetueranno ed esacerberanno l'iniquità in qualsiasi campo informato da tali modelli, come l'assistenza sanitaria o le assunzioni. La ricerca sulla scienza dei dati ha prodotto algoritmi come FairIJ e tecniche di perfezionamento dei modelli come FairReprogram per affrontare l'iniquità intrinseca nei dati.

Overfitting e underfitting
L'overfitting si verifica quando un modello ML si adatta troppo ai dati di addestramento, facendo sì che informazioni irrilevanti (o "rumore") nel set di dati campione influenzino le prestazioni del modello. L'underfitting è il contrario: un addestramento improprio o inadeguato.

Foundation Model

Chiamati anche modelli di base o modelli pre-addestrati, i foundation model sono modelli di deep learning pre-addestrati su set di dati su larga scala per apprendere funzionalità e modelli generali. Servono come punti di partenza da perfezionare o adattare per applicazioni AI più specifiche.

Invece di costruire modelli da zero, gli sviluppatori possono modificare gli strati della rete neurale, regolare i parametri o adattare le architetture per soddisfare le esigenze specifiche del dominio. Se a ciò si aggiunge l'ampiezza e la profondità delle conoscenze e delle competenze di un modello ampio e collaudato, si ottiene un notevole risparmio di tempo e di risorse nell'addestramento dei modelli. I foundation model consentono, quindi, uno sviluppo e un'implementazione più rapidi dei sistemi di AI.

La messa a punto di modelli pre-addestrati per attività specializzate ha recentemente ceduto il passo al prompt-tuning, che introduce spunti front-end nel modello per guidarlo verso il tipo di decisione o previsione desiderata.

Secondo David Cox, co-direttore del MIT-IBM Watson AI Lab, la ridistribuzione di un modello di deep learning addestrato (anziché addestrare o riqualificare un nuovo modello) può ridurre il consumo di computer ed energia di oltre 1.000 volte, risparmiando così costi significativi1.

Esplora i Foundation model in watsonx.ai

Ebook

Scopri come scegliere il foundation model più adatto

Test dei modelli di AI

I test sofisticati sono essenziali per l'ottimizzazione, in quanto misurano se un modello è ben addestrato per raggiungere l'attività prevista. Modelli e attività diversi si prestano a metriche e metodologie diverse.

Convalida incrociata
Il test delle prestazioni di un modello richiede un gruppo di controllo per giudicarlo, poiché testare un modello rispetto agli stessi dati su cui è stato addestrato può portare all'overfitting. Nella convalida incrociata, alcune parti dei dati di addestramento vengono tenute da parte o ricampionate per creare il gruppo di controllo. Le varianti includono metodi non esaustivi come la convalida incrociata k-fold, holdout e monte carlo o metodi esaustivi come la convalida incrociata leave-p-out.

Metrica dei modelli di classificazione
Questi metodi comuni incorporano valori di risultato discreti come veri positivi (TP), veri negativi (TN), falsi positivi (FP) e falsi negativi (FN).

  • L'accuratezza è il rapporto tra le previsioni corrette e le previsioni totali: (TP+TN) / (TP+TN+FP+FN). Non funziona bene per set di dati sbilanciati.
  • La precisione misura la frequenza con cui le previsioni positive sono accurate: TP/(TP+FP).
  • Il richiamo misura la frequenza con cui vengono acquisite correttamente le previsioni positive: TP/(TP+FN).
  • Il punteggio F1 è la media armonica della precisione e del richiamo: (2×Precisione×Richiamo)/(Precisione+Richiamo). Bilancia i compromessi tra precisione (che incoraggia i falsi negativi) e richiamo (che incoraggia i falsi positivi).
  • Una matrice di confusione rappresenta visivamente l'attendibilità (o la confusione) dell'algoritmo per ogni potenziale classificazione.

Metriche del modello di regressione2
Poiché gli algoritmi di regressione prevedono valori continui anziché discreti, vengono misurati da diverse metriche in cui "N" rappresenta il numero di osservazioni. Quelle che seguono sono metriche comunemente utilizzate per valutare i modelli di regressione.

  • L'errore assoluto medio (MAE) indica la discrepanza quadratica media tra i valori previsti (ypred) e i valori effettivi (yactual) in termini assoluti: (ypred — yactual) /N.
  • L'errore quadratico medio (MSE) indica la discrepanza quadratica media per penalizzare in modo aggressivo i valori outlier: (ypred — yactual)2/N.
  • L'errore quadratico medio (RSME) misura le deviazioni standard nella stessa unità dei risultati: √((yprev — y effettivo) 2/N).
  • L'errore percentuale assoluto medio (MAPE) esprime l'errore medio in percentuale.
Implementazione dei modelli di AI

Per implementare ed eseguire un modello di AI, è necessario un dispositivo informatico o un server con una potenza di elaborazione e una capacità di archiviazione sufficienti. L'incapacità di pianificare adeguatamente le pipeline di AI e le risorse di calcolo può far sì che prototipi altrimenti di successo non riescano ad andare oltre la fase di proof-of-concept.

  • I framework di machine learning open source come PyTorch, Tensorflow e Caffe2 possono eseguire modelli ML con poche righe di codice.
  • Le unità di elaborazione centrale (CPU) sono una fonte efficiente di potenza di calcolo per l'apprendimento di algoritmi che non richiedono un'ampia elaborazione parallela.
  • Le unità di elaborazione grafica (GPU) hanno una maggiore capacità di elaborazione parallela, il che le rende più adatte agli enormi set di dati e alla complessità matematica delle neural networks di deep learning.
Soluzioni correlate
IBM watsonx

Moltiplica la potenza dell'AI con la nostra piattaforma di dati e intelligenza artificiale di nuova generazione. IBM watsonx è un portfolio di strumenti, applicazioni e soluzioni per il business, progettati per ridurre i costi e gli ostacoli dell'adozione dell'AI, ottimizzando al contempo i risultati e l'utilizzo responsabile dell'AI.

Scopri watsonx

Soluzioni AI

Rendi operativa l'AI in tutta la tua azienda per offrire benefici in modo rapido ed etico.  Il nostro ricco portafoglio di prodotti AI di livello aziendale e di soluzioni di analytics è progettato per ridurre gli ostacoli all'adozione dell'AI e per creare le giuste basi di dati, ottimizzando i risultati e l'uso responsabile.

Esplora le soluzioni AI di IBM

Servizi di consulenza AI

Ripensa il modo in cui lavori con l'AI: il nostro team globale e diversificato, composto da oltre 20.000 esperti di AI, può aiutarti a progettare e scalare l'AI e l'automazione in tutta l'azienda in modo rapido e sicuro, lavorando con la nostra tecnologia IBM watsonx e  con un ecosistema aperto di partner, per fornire qualsiasi modello AI, su qualsiasi cloud, guidato da etica e fiducia.

Esplora i servizi di consulenza AI di IBM
Risorse del modello AI Scopri gli LLM Granite di IBM

Granite è la serie di punta di foundation model LLM di IBM basati su un'architettura trasformativa decoder-only. I modelli linguistici Granite sono addestrati su dati aziendali affidabili che spaziano da Internet al mondo accademico, ai codici, ai settori legale e finanziario.

IBM Research: intelligenza artificiale

Esplora il nostro hub centralizzato per la ricerca sull'AI, dai principi di base alla ricerca emergente, fino alle questioni più importanti e ai progressi.

IBM crea un'AI generativa su misura per le imprese

Scopri come IBM sviluppa foundation model generativi affidabili, efficienti dal punto di vista energetico e portatili.

Inizia a usare l'intelligenza artificiale

Un corso per principianti: in due ore, imparerai gli elementi di base dell'AI e creerai e testerai il suo primo modello di machine learning usando Python e scikit-learn.

Addestramento dei modelli AI con PyTorch

Sfrutta la potenza dell'AI generativa con watsonx.ai e PyTorch. Gestisci il ciclo di vita del tuo modello ML in un ambiente di studio sicuro.

IBM è stata nominata Strong Performer nella classifica "The Forrester Wave™: AI Foundation Models for Language, Q2 2024"

Le aziende sanno di non poter scalare l'IA generativa con modelli di base di cui non possono fidarsi. Scarica l'estratto per scoprire perché IBM, con i suoi "modelli Granite" di punta, è stata nominata Strong Performer.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 "What is prompt tuning?", IBM Research, 15 febbraio 2023.

2 "Machine learning model evaluation" (link esterno a ibm.com), Geeksforgeeks.org, 2022.