Cosa sono i foundation model?

Cosa sono i foundation model?

I foundation model sono modelli di intelligenza artificiale (IA) addestrati su set di dati immensi e possono svolgere un'ampia gamma di compiti generali. Servono come base, o "fondamenta", per la creazione di applicazioni più specializzate.

La loro flessibilità e le loro enormi dimensioni li distinguono dai tradizionali modelli di machine learning, che sono addestrati su set di dati più piccoli per svolgere attività specifiche, come il rilevamento di oggetti o la previsione. I foundation model, invece, utilizzano l'apprendimento trasferito per applicare le conoscenze apprese da un'attività all'altra. Questo li rende adatti a domini più ampi, tra cui la computer vision, l'elaborazione del linguaggio naturale (NLP) e il riconoscimento vocale.

I ricercatori del Center for Research on Foundation Models e dell'Institute for Human-Centered Artificial Intelligence della Stanford University hanno coniato il termine "foundation model" in un articolo del 2021. Hanno caratterizzato questi modelli come un "cambiamento di paradigma" e hanno descritto il ragionamento alla base della loro denominazione: "Un foundation model è di per sé incompleto, ma funge da base comune da cui molti modelli specifici per attività vengono costruiti tramite adattamento. Abbiamo scelto il termine "foundation" (fondamenta) per connotare l'importanza della stabilità architettonica, della sicurezza e della protezione: le fondamenta mal costruite sono la cronaca di una morte annunciata, mentre le fondamenta ben realizzate sono una base affidabile per applicazioni future".1

Come funzionano i foundation model?

La creazione di un foundation model spesso richiede una serie di passaggi simili allo sviluppo di un modello di machine learning convenzionale:

  1. Raccolta dati
  2. Scegliere la modalità
  3. Definizione dell'architettura del modello
  4. Formazione
  5. Valutazione

1. Raccolta dati

Il primo passo consiste nel raccogliere un enorme corpus di dati provenienti da diverse fonti. Questo ampio spettro di dati non etichettati e non strutturati consente ai foundation model di dedurre schemi, riconoscere relazioni, discernere il contesto e generalizzare le proprie conoscenze.

2. Scegliere la modalità

La modalità si riferisce al tipo di dati che un modello può elaborare, inclusi audio, immagini, codice software, testo e video. I foundation model possono essere unimodali o multimodali. I modelli unimodali sono progettati per gestire un unico tipo di dati, come la ricezione di input di testo e la generazione di output di testo. I modelli multimodali invece combinano informazioni provenienti da diverse modalità, ad esempio la ricezione di SMS, la ricezione di un'immagine o la produzione trascrizioni scritte da una registrazione vocale.

3. Definire l'architettura del modello

Molti foundation model utilizzano un'architettura di deep learning, che utilizza reti neurali multistrato per imitare il processo decisionale del cervello umano.

Un tipo di modello di deep learning noto come modello a trasformatore è stato l'architettura preferita per i foundation model, in particolare quelli per la NLP, come la linea di modelli di trasformatori generativi pre-addestrati (GPT). Ecco una breve panoramica dell'architettura trasformativa:

  • ● Gli encoder trasformano le sequenze di input in rappresentazioni numeriche chiamate incorporamenti che acquisiscono la semantica e la posizione dei token nella sequenza di input.

  • Un meccanismo di auto-attenzione consente ai trasformatori di "focalizzare l'attenzione" sui token più importanti nella sequenza di input, indipendentemente dalla loro posizione.

  • I decodificatori utilizzano questo meccanismo di auto-attenzione e gli incorporamenti degli codificatori per generare la sequenza di output statisticamente più probabile.

I modelli di diffusione sono un'altra architettura implementata nei foundation model. Le reti neurali basate sulla diffusione gradualmente "diffondono" i dati di addestramento con rumore casuale, poi imparano a invertire quel processo di diffusione per ricostruire i dati originali. I modelli di diffusione sono utilizzati principalmente in modelli di base da testo a immagine come Imagen di Google, DALL-E di OpenAI (a partire da DALL-E 2) e Stable Diffusion di Stability AI.

4. Formazione

L'addestramento in genere comporta un apprendimento autos upervisionato, in cui i foundation model apprendono le correlazioni intrinseche nei dati non etichettati. Quindi, l'addestramento avviene su più iterazioni, con pesi del modello regolati per ridurre al minimo gli errori di previsione e iperparametri ottimizzati per trovare le variabili di configurazione ottimali per l'addestramento. I metodi di regolarizzazione possono essere applicati anche per correggere l'overfitting (quando un modello si adatta troppo o addirittura esattamente ai suoi dati di addestramento) e per migliorare la capacità di generalizzazione di un foundation model.

5. Valutazione

Le prestazioni di un foundation model possono essere convalidate utilizzando i benchmark. I risultati di queste valutazioni forniscono ulteriori miglioramenti o ottimizzazioni delle prestazioni.

Adattamento dei foundation model

Lo sviluppo di un foundation model da zero può essere un processo costoso, intensivo dal punto di vista computazionale e dispendioso in termini di tempo. Ecco perché le aziende potrebbero prendere in considerazione l'adattamento dei foundation model alle loro esigenze specifiche. È possibile accedere a questi modelli tramite un'application programming interface (API) o utilizzando una copia locale del modello.

Ecco due approcci comuni all'adattamento:

Messa a punto

Durante la messa a punto, un foundation model adatta le sue conoscenze generali a un compito particolare, il che comporta un ulteriore addestramento utilizzando l'apprendimento supervisionato su un set di dati più piccolo, specifico per un dominio o un'attività, che include esempi etichettati. I parametri del modello vengono aggiornati per ottimizzarne le prestazioni nell'attività.

Poiché la messa a punto altera i parametri, potrebbe influire sulle prestazioni del modello in altre attività. Anche la creazione di un set di dati etichettato è un processo lungo e tedioso.

Generazione di prompt

Questo metodo prevede di fornire un prompt per adattare un foundation model a un determinato compito. Il prompt si presenta sotto forma di istruzioni relative all'attività o di esempi pertinenti che guidano un modello, permettendogli di acquisire contesto e generare un output plausibile, una capacità nota come apprendimento contestuale.

Sebbene la richiesta non richieda l'addestramento di un modello o la modifica dei suoi parametri, possono essere necessari diversi tentativi per ottenere il prompt giusto che condizioni un modello per comprendere il contesto e fare previsioni adeguate.

Casi d'uso dei foundation model

L'adattabilità e la natura generica dei foundation model significano che possono essere implementati per varie applicazioni: 

  • Computer vision

  • Elaborazione del linguaggio naturale

  • Settore sanitario

  • Robotica

  • Generazione di codice software

Computer vision

I foundation model possono essere utilizzati per generare e classificare immagini e per rilevare, identificare e descrivere oggetti. DALL-E, Imagen e Stable Diffusion sono esempi di foundation model da testo a immagine.

Elaborazione del linguaggio naturale

I modelli linguistici di grandi dimensioni (LLM) sono una categoria di foundation model che eccelle nella NLP e nella natural language understanding (NLU). Le loro funzionalità comprendono, tra le altre, la risposta alle domande, il riepilogo del testo, la trascrizione, la traduzione e la generazione di sottotitoli video.

Ecco alcuni foundation model popolari nell'ambito della NLP:

  • BERT (Bidirectional Encoder Representations from Transformers) è uno dei primi foundation model di LLM sviluppati. Rilasciato da Google nel 2018, questo sistema di AI open source è stato addestrato solo su un corpus di testo normale.2

  • BLOOM è un modello linguistico multilingue ad accesso aperto addestrato su 46 lingue. È il risultato di uno sforzo collaborativo tra Hugging Face e BigScience, una comunità di ricercatori di AI.3

  • Claude è la famiglia di foundation model di Anthropic con funzionalità di ragionamento avanzate e di elaborazione multilingue.

  • GPT, il foundation model di OpenAI, è la spina dorsale di ChatGPT, il chatbot di AI generativa dell'azienda. GPT-3.5 è il motore della versione gratuita di ChatGPT, mentre GPT-4 è alla base della versione premium. La serie GPT-4 è anche il modello di AI generativa che supporta l'assistente AI Copilot di Microsoft.

  • Granite è la serie di punta di foundation model LLM di IBM®, basati su un'architettura trasformativa decoder-only. Il modello di chat Granite 13b è ottimizzato per i casi d'uso dei dialoghi e funziona bene con agenti virtuali e app di chat, mentre il modello multilingue Granite è addestrato per comprendere e generare testo in inglese, tedesco, spagnolo, francese e portoghese.

  • PalM 2 è il modello linguistico di nuova generazione di Google con funzionalità multilingue e di ragionamento avanzate.

Assistenza sanitaria

Nel settore sanitario, i foundation model possono essere utili per svolgere diverse attività. Dalla creazione dei riepiloghi delle visite ai pazienti e dalla ricerca nella letteratura medica alla risposta alle domande dei pazienti, all'abbinamento dei casi con gli studi clinici e alla facilitazione della scoperta di farmaci. Il modello linguistico Med-Palm 2, ad esempio, può rispondere a domande mediche, e Google sta progettando una versione multimodale in grado di sintetizzare informazioni da immagini mediche.4

Robotica

Nel campo della robotica, i foundation model possono aiutare i robot ad adattarsi rapidamente a nuovi ambienti e a generalizzarsi in vari compiti, scenari e forme di realizzazione delle macchine. Ad esempio, il modello linguistico multimodale incorporato in PaLM-E trasferisce le conoscenze dai domini linguistici e visivi di Palm alla robotica e viene addestrato sui dati dei sensori.5

Generazione di codice software

I foundation model possono aiutare a completare, eseguire il debug, spiegare e generare codice in diversi linguaggi di programmazione. Questi foundation model da testo a codice includono Claude di Anthropic, Codey e PaLM 2 di Google e la famiglia di modelli di codice Granite di IBM, addestrata su 116 linguaggi di programmazione.

Con così tante opzioni, come fanno le organizzazioni scegliere il foundation model giusto per lo sviluppo dell'AI? Ecco un framework di selezione dei modelli AI in sei fasi che può essere d'aiuto:

Vantaggi dei foundation model

Basarsi sui foundation model può portare all'automazione e all'innovazione per le imprese. Ecco altri vantaggi che le aziende possono ottenere dai foundation model:

Accelerazione del time to value e del tempo di espansione: l'adozione dei modelli esistenti elimina le fasi di sviluppo e preformazione, consentendo alle aziende di personalizzare e implementare rapidamente modelli ottimizzati.

Accesso ai dati: le organizzazioni non hanno bisogno di raccogliere grandi quantità di dati che non riuscirebbero mai ad acquisire per il pre-addestramento.

Precisione e prestazioni di base: i foundation model sono già stati valutati in termini di precisione e prestazioni, offrendo un punto di partenza di alta qualità.

Costi ridotti: le aziende non dovranno spendere le risorse necessarie per creare un foundation model da zero.

Sfide dei foundation model

Come altri modelli AI, i foundation model sono ancora alle prese con i rischi dell'AI. Questo è un fattore da tenere a mente per le aziende che considerano di adottare i foundation model come la tecnologia alla base dei loro workflow interni o delle applicazioni commerciali di AI.

Bias: un modello può imparare i pregiudizi umani presenti nei dati di addestramento e ripeterli negli output dei modelli perfezionati.

Costi computazionali: l'utilizzo dei foundation model esistenti richiede ancora una quantità di memoria significativa, hardware avanzato come le GPU (unità di elaborazione grafica) e altre risorse per la messa a punto, la distribuzione e la manutenzione.

Privacy dei dati e proprietà intellettuale: i foundation model potrebbero essere addestrati su dati ottenuti senza il consenso o la conoscenza dei proprietari. Presta sempre attenzione quando inserisci dati in algoritmi per evitare di violare il copyright altrui o di esporre informazioni personali identificabili o di proprietà dell'azienda.

Rischio ambientale: la formazione e l'esecuzione di foundation model su larga scala comportano calcoli ad alta intensità energetica che contribuiscono all'aumento delle emissioni di carbonio e del consumo di acqua.

Allucinazioni: la verifica dei risultati dei modelli di base di AI è essenziale per assicurarsi che producano output effettivamente corretti.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

AI Academy

Ecco perché i foundation model rappresentano un cambio di paradigma per l'AI

Scopri una nuova classe di modelli AI flessibili e riutilizzabili che possono sbloccare nuove entrate, ridurre i costi e aumentare la produttività, consulta quindi la nostra guida per approfondire.

Soluzioni correlate
Foundation Model

Esplora la libreria IBM di foundation model nel portfolio di watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Esplora la libreria IBM dei foundation model nel portafoglio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

Esplora watsonx.ai Esplora le soluzioni AI
Note a piè di pagina

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 novembre 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 luglio 2022

4 Med-PaLM, Google Research, consultato l'8 ottobre 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10 marzo 2023