Un modello AI è un programma che è stato addestrato su un set di dati per riconoscere determinati modelli o prendere determinate decisioni senza ulteriore intervento umano. I modelli di intelligenza artificiale applicano diversi algoritmi agli input di dati pertinenti per raggiungere le attività, o output, per cui sono stati programmati.
In poche parole, un modello di intelligenza artificiale è definito dalla sua capacità di prendere decisioni o previsioni in modo autonomo, piuttosto che simulare l'intelligenza umana. Tra i primi modelli di AI di successo, ci sono stati i programmi per giocare a dama e a scacchi all'inizio degli anni '50: i modelli consentivano ai programmi di fare mosse in risposta diretta all'avversario umano, anziché seguire una serie di mosse prescritte.
Diversi tipi di modelli di AI sono più adatti a compiti o domini specifici, per i quali la loro particolare logica decisionale è più utile o rilevante.I sistemi complessi spesso impiegano più modelli contemporaneamente, utilizzando tecniche di apprendimento collettivo come il bagging, il boosting o lo stacking.
Man mano che gli strumenti di AI diventano sempre più complessi e versatili, richiedono quantità di dati e potenza di calcolo sempre più impegnative per l'addestramento e l'esecuzione. In risposta, i sistemi progettati per eseguire compiti specifici in un singolo dominio stanno lasciando il posto a foundation model, pre-addestrati su grandi insiemi di dati non etichettati e e in grado di svolgere un'ampia gamma di applicazioni. La versatilità di questi foundation model gli permette, poi, di essere adattati a specifici.
Sebbene i due termini siano spesso usati in modo intercambiabile in questo contesto, non significano esattamente la stessa cosa.
In parole povere, un modello di AI viene utilizzato per fare previsioni o prendere decisioni e un algoritmo è la logica con cui il modello di AI opera.
Studio aziendale di nuova generazione per i builder AI con cui addestrare, convalidare, adattare e implementare modelli di AI.
Meta lancia i nuovi modelli Llama 3.1
I modelli di intelligenza artificiale possono automatizzare il processo decisionale, ma solo i modelli capaci di machine learning (ML) sono in grado di ottimizzare autonomamente le proprie prestazioni nel tempo.
Sebbene tutti i modelli di ML siano AI, non tutta l'AI coinvolge l'apprendimento automatico (ML). I modelli di intelligenza artificiale più elementari sono costituiti da una serie di istruzioni if-then-else, con regole programmate esplicitamente da un data scientist. Tali modelli sono chiamati alternativamente motori di regole, sistemi esperti, grafi della conoscenza o AI simbolica.
I modelli di apprendimento automatico utilizzano l'AI statistica piuttosto che l'AI simbolica. Mentre i modelli di intelligenza artificiale basati su regole devono essere programmati in modo esplicito, i modelli ML vengono "addestrati" applicando i loro framework matematici a un set di dati campione i cui punti dati servono come base per le future previsioni del modello nel mondo reale.
Le tecniche dei modelli ML possono essere generalmente suddivise in tre grandi categorie: apprendimento supervisionato, apprendimento non supervisionato e apprendimento per rinforzo.
Il deep learning è un sottoinsieme ulteriormente evoluto dell'apprendimento non supervisionato la cui struttura delle neural networks tenta di imitare quella del cervello umano. Più livelli di nodi interconnessi ingeriscono progressivamente i dati, estraggono le caratteristiche chiave, identificano le relazioni e affinano le decisioni in un processo chiamato propagazione in avanti. Un altro processo chiamato retropropagazione applica modelli che calcolano gli errori e regolano di conseguenza i pesi e i bias del sistema. Le applicazioni di intelligenza artificiale più avanzate, come i modelli linguistici di grandi dimensioni (LLM) che alimentano i chatbot moderni, utilizzano il deep learning. Richiede enormi risorse computazionali.
Un modo per differenziare i modelli di apprendimento automatico è la loro metodologia fondamentale: la maggior parte può essere classificata come generativa o discriminativa. La distinzione sta nel modo in cui modellano i dati in un determinato spazio.
Modelli generativi
Gli algoritmi generativi, che di solito comportano l'apprendimento non supervisionato, modellano la distribuzione dei punti dati, con l'obiettivo di prevedere la probabilità congiunta P(x,y) di un determinato punto dati che appare in un particolare spazio. Un modello di computer vision generativa potrebbe quindi identificare correlazioni come "le cose che sembrano auto di solito hanno quattro ruote" o "è improbabile che gli occhi appaiano sopra le sopracciglia".
Queste previsioni possono informare la generazione di risultati che il modello ritiene altamente probabili. Ad esempio, un modello generativo addestrato su dati di testo può potenziare l'ortografia e i suggerimenti di completamento automatico; passando a un livello più complesso, può generare un testo completamente nuovo. In sostanza, quando un LLM produce un testo, ha calcolato un'alta probabilità che quella sequenza di parole sia stata assemblata in risposta al prompt che gli è stato dato.
Altri casi d'uso comuni per i modelli generativi sono la sintesi di immagini, la composizione musicale, il trasferimento di stile e la traduzione linguistica.
Esempi di modelli generativi includono:
Modelli discriminativi
Gli algoritmi discriminativi , che di solito comportano l'apprendimento supervisionato, modellano i confini tra le classi di dati (o "confini decisionali"), con l'obiettivo di prevedere la probabilità condizionata P(y|x) di un dato punto dati (x) che rientra in una certa classe (y). Un modello di computer vision discriminante potrebbe apprendere la differenza tra "auto" e "non auto" individuando alcune differenze chiave (come "se non ha le ruote, non è un'auto"), il che gli consente di ignorare molte correlazioni di cui un modello generativo deve tenere conto. I modelli discriminativi tendono, quindi, a richiedere meno potenza di calcolo.
I modelli discriminanti sono, naturalmente, adatti per attività di classificazione come la sentiment analysis, ma hanno molti usi. Ad esempio, i modelli ad albero decisionale e a foresta casuale suddividono i processi decisionali complessi in una serie di nodi, in cui ogni "foglia" rappresenta una potenziale decisione di classificazione.
Casi d'uso
Sebbene i modelli discriminativi o generativi possano generalmente superarsi a vicenda per determinati casi d'uso reali, molti compiti possono essere svolti con entrambi i tipi di modelli. Ad esempio, i modelli discriminativi hanno molti usi nell'elaborazione del linguaggio naturale (PNL) e spesso superano l'AI generativa per attività come la traduzione automatica (che comporta la generazione di testo tradotto).
Allo stesso modo, i modelli generativi possono essere utilizzati per la classificazione utilizzando il teorema di Bayes. Invece di determinare da che parte di un confine decisionale si trova un'istanza (come farebbe un modello discriminativo), un modello generativo potrebbe determinare la probabilità di ciascuna classe che genera l'istanza e scegliere quella con la probabilità più alta.
Molti sistemi di intelligenza artificiale impiegano insieme entrambi i metodi. In una rete generativa antagonista, ad esempio, un modello generativo genera dati campione e un modello discriminativo determina se tali dati sono "reali" o "falsi". L'output del modello discriminativo viene utilizzato per addestrare il modello generativo fino a quando il discriminatore non è più in grado di distinguere i dati generati come "falsi".
Un altro modo per categorizzare i modelli è in base alla natura delle attività per cui vengono utilizzati. La maggior parte degli algoritmi classici del modello di intelligenza artificiale esegue la classificazione o la regressione. Alcuni sono adatti per entrambe e la maggior parte dei modelli di base sfrutta entrambi i tipi di funzioni.
Questa terminologia può, a volte, creare confusione. Ad esempio, la regressione è un modello discriminante utilizzato per la classificazione.
Modelli di regressione
Modelli di regressione prevedono valori continui (come prezzo, età, dimensioni o tempo). Vengono utilizzati principalmente per determinare la relazione tra una o più variabili indipendenti (x) e una variabile dipendente (y): data x, predicono il valore di y.
Modelli di classificazione
I modelli di classificazione prevedono valori discreti . Pertanto, vengono utilizzati principalmente per determinare un'etichetta appropriata o per categorizzare (ad esempio, classificare). Può trattarsi di una classificazione binaria , ad esempio "sì o no", "accetta o rifiuta", o di una classificazione multi-classe (ad esempio, un motore di raccomandazione che suggerisce il prodotto A, B, C o D).
Gli algoritmi di classificazione trovano un'ampia gamma di usi, dalla categorizzazione semplice all'automazione delle estrazioni di caratteristiche nelle reti di deep learning, fino ai progressi in campo sanitario come la classificazione delle immagini diagnostiche in radiologia.
Alcuni esempi comuni sono:
L'"apprendimento" nel machine learning si ottiene addestrando i modelli su set di dati campione. Le tendenze probabilistiche e le correlazioni individuate nei set di dati campione vengono poi applicate alle prestazioni della funzione del sistema.
Nell'apprendimento supervisionato e semi-supervisionato, questi dati di addestramento devono essere accuratamente etichettati dai data scientist per ottimizzare i risultati. Con una corretta estrazione delle caratteristiche, l'apprendimento supervisionato richiede una quantità di dati di addestramento complessivamente inferiore rispetto all'apprendimento non supervisionato.
Idealmente, i modelli di ML vengono addestrati su dati reali. Questo, intuitivamente, garantisce che il modello rifletta le circostanze reali che è stato progettato per analizzare o replicare. Ma affidarsi esclusivamente ai dati del mondo reale non è sempre possibile, pratico o ottimale.
Aumento delle dimensioni e della complessità del modello
Più parametri ha un modello, più dati sono necessari per addestrarlo. Man mano che i modelli di deep learning crescono di dimensioni, l'acquisizione di questi dati diventa sempre più difficile. Ciò è particolarmente evidente negli LLM: sia il GPT-3 di Open-AI che l'open source BLOOM hanno oltre 175 miliardi di parametri.
Nonostante la praticità, l'utilizzo di dati disponibili al pubblico può introdurre problemi normativi, come quando i dati devono essere resi anonimi, così come problemi pratici. Ad esempio, i modelli linguistici addestrati sui thread dei social media potrebbero “apprendere” abitudini o imprecisioni non ideali in un contesto aziendale.
I dati sintetici offrono una soluzione alternativa: un insieme più piccolo di dati reali viene utilizzato per generare dati di addestramento che assomigliano molto all'originale e che evitano i problemi di privacy.
Eliminazione dei bias
I modelli di ML addestrati su dati del mondo reale assorbiranno inevitabilmente i pregiudizi sociali che si rifletteranno in tali dati. Se non eliminati, tali pregiudizi perpetueranno ed esacerberanno l'iniquità in qualsiasi campo informato da tali modelli, come l'assistenza sanitaria o le assunzioni. La ricerca sulla scienza dei dati ha prodotto algoritmi come FairIJ e tecniche di perfezionamento dei modelli come FairReprogram per affrontare l'iniquità intrinseca nei dati.
Overfitting e underfitting
L'overfitting si verifica quando un modello ML si adatta troppo ai dati di addestramento, facendo sì che informazioni irrilevanti (o "rumore") nel set di dati campione influenzino le prestazioni del modello. L'underfitting è il contrario: un addestramento improprio o inadeguato.
Chiamati anche modelli di base o modelli pre-addestrati, i foundation model sono modelli di deep learning pre-addestrati su set di dati su larga scala per apprendere funzionalità e modelli generali. Servono come punti di partenza da perfezionare o adattare per applicazioni AI più specifiche.
Invece di costruire modelli da zero, gli sviluppatori possono modificare gli strati della rete neurale, regolare i parametri o adattare le architetture per soddisfare le esigenze specifiche del dominio. Se a ciò si aggiunge l'ampiezza e la profondità delle conoscenze e delle competenze di un modello ampio e collaudato, si ottiene un notevole risparmio di tempo e di risorse nell'addestramento dei modelli. I foundation model consentono, quindi, uno sviluppo e un'implementazione più rapidi dei sistemi di AI.
La messa a punto di modelli pre-addestrati per attività specializzate ha recentemente ceduto il passo al prompt-tuning, che introduce spunti front-end nel modello per guidarlo verso il tipo di decisione o previsione desiderata.
Secondo David Cox, co-direttore del MIT-IBM Watson AI Lab, la ridistribuzione di un modello di deep learning addestrato (anziché addestrare o riqualificare un nuovo modello) può ridurre il consumo di computer ed energia di oltre 1.000 volte, risparmiando così costi significativi1.
Esplora i Foundation model in watsonx.ai
Scopri come scegliere il foundation model più adatto
I test sofisticati sono essenziali per l'ottimizzazione, in quanto misurano se un modello è ben addestrato per raggiungere l'attività prevista. Modelli e attività diversi si prestano a metriche e metodologie diverse.
Convalida incrociata
Il test delle prestazioni di un modello richiede un gruppo di controllo per giudicarlo, poiché testare un modello rispetto agli stessi dati su cui è stato addestrato può portare all'overfitting. Nella convalida incrociata, alcune parti dei dati di addestramento vengono tenute da parte o ricampionate per creare il gruppo di controllo. Le varianti includono metodi non esaustivi come la convalida incrociata k-fold, holdout e monte carlo o metodi esaustivi come la convalida incrociata leave-p-out.
Metrica dei modelli di classificazione
Questi metodi comuni incorporano valori di risultato discreti come veri positivi (TP), veri negativi (TN), falsi positivi (FP) e falsi negativi (FN).
Metriche del modello di regressione2
Poiché gli algoritmi di regressione prevedono valori continui anziché discreti, vengono misurati da diverse metriche in cui "N" rappresenta il numero di osservazioni. Quelle che seguono sono metriche comunemente utilizzate per valutare i modelli di regressione.
Per implementare ed eseguire un modello di AI, è necessario un dispositivo informatico o un server con una potenza di elaborazione e una capacità di archiviazione sufficienti. L'incapacità di pianificare adeguatamente le pipeline di AI e le risorse di calcolo può far sì che prototipi altrimenti di successo non riescano ad andare oltre la fase di proof-of-concept.
Moltiplica la potenza dell'AI con la nostra piattaforma di dati e intelligenza artificiale di nuova generazione. IBM watsonx è un portfolio di strumenti, applicazioni e soluzioni per il business, progettati per ridurre i costi e gli ostacoli dell'adozione dell'AI, ottimizzando al contempo i risultati e l'utilizzo responsabile dell'AI.
Rendi operativa l'AI in tutta la tua azienda per offrire benefici in modo rapido ed etico. Il nostro ricco portafoglio di prodotti AI di livello aziendale e di soluzioni di analytics è progettato per ridurre gli ostacoli all'adozione dell'AI e per creare le giuste basi di dati, ottimizzando i risultati e l'uso responsabile.
Ripensa il modo in cui lavori con l'AI: il nostro team globale e diversificato, composto da oltre 20.000 esperti di AI, può aiutarti a progettare e scalare l'AI e l'automazione in tutta l'azienda in modo rapido e sicuro, lavorando con la nostra tecnologia IBM watsonx e con un ecosistema aperto di partner, per fornire qualsiasi modello AI, su qualsiasi cloud, guidato da etica e fiducia.
Granite è la serie di punta di foundation model LLM di IBM basati su un'architettura trasformativa decoder-only. I modelli linguistici Granite sono addestrati su dati aziendali affidabili che spaziano da Internet al mondo accademico, ai codici, ai settori legale e finanziario.
Esplora il nostro hub centralizzato per la ricerca sull'AI, dai principi di base alla ricerca emergente, fino alle questioni più importanti e ai progressi.
Scopri come IBM sviluppa foundation model generativi affidabili, efficienti dal punto di vista energetico e portatili.
Un corso per principianti: in due ore, imparerai gli elementi di base dell'AI e creerai e testerai il suo primo modello di machine learning usando Python e scikit-learn.
Sfrutta la potenza dell'AI generativa con watsonx.ai e PyTorch. Gestisci il ciclo di vita del tuo modello ML in un ambiente di studio sicuro.
Le aziende sanno di non poter scalare l'IA generativa con modelli di base di cui non possono fidarsi. Scarica l'estratto per scoprire perché IBM, con i suoi "modelli Granite" di punta, è stata nominata Strong Performer.
1 "What is prompt tuning?", IBM Research, 15 febbraio 2023.
2 "Machine learning model evaluation" (link esterno a ibm.com), Geeksforgeeks.org, 2022.