Che cos'è l'allineamento dell'AI?

Project Manager che fa una presentazione motivazionale usando la lavagna digitale

Autori

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Che cos'è l'allineamento dell'AI?

L'allineamento dell'intelligenza artificiale (AI) è il processo di codifica dei valori e degli obiettivi umani nei modelli AI, per renderli il più possibile utili, sicuri e affidabili.
 

La società fa sempre più affidamento sulle tecnologie AI per prendere decisioni. Questa crescente dipendenza comporta però dei rischi: i modelli AI possono produrre output distorti, dannosi e imprecisi, non in linea con gli obiettivi dei loro creatori e con l'intento originale del sistema.

L'allineamento ha lo scopo di ridurre questi effetti collaterali, contribuendo a garantire che i sistemi AI si comportino come previsto e in linea con i valori e gli obiettivi umani. Ad esempio, se chiedi a un chatbot con AI generativa come costruire un'arma, questo può rispondere con delle istruzioni oppure può rifiutarsi di rivelare informazioni pericolose. La risposta del modello dipende da come i suoi creatori lo hanno allineato.

L'allineamento si verifica spesso come fase di messa a punto del modello. Potrebbe includere l'apprendimento per rinforzo dal feedback umano (RLHF), approcci ai dati sintetici e red teaming.

Tuttavia, più i modelli AI diventano complessi e avanzati, più è difficile prevederne e controllarne i risultati. Questa sfida viene talvolta definita come il "problema dell'allineamento dell'AI." In particolare, c'è una certa apprensione sulla creazione della superintelligenza artificiale (ASI), un ipotetico sistema di intelligenza AI con una portata intellettuale che va oltre l'intelligenza umana. La preoccupazione che l'ASI possa superare il controllo umano ha portato a un ramo dell'allineamento dell'AI chiamato superallineamento.

Principi chiave dell'allineamento dell'AI

I ricercatori hanno identificato quattro principi chiave dell'allineamento dell'AI: solidità, interpretabilità, controllabilità ed eticità.1

  • Solidità: i sistemi di AI solidi possono funzionare in modo affidabile in condizioni avverse e in ambienti diversi. Sono resilienti in circostanze impreviste. La resistenza agli attacchi si riferisce specificamente alla capacità di un modello di essere immune alle irregolarità e agli attacchi.

  • Interpretabilità: l'interpretabilità dell'AI aiuta le persone a comprendere e spiegare meglio i processi decisionali su cui si basano i modelli  AI. Man mano che i modelli altamente complessi (inclusi gli algoritmi di deep learning e reti neurali) diventano più comuni, l'interpretabilità dell'AI diventa più importante.

  • Controllabilità: i sistemi di AI controllabili rispondono all'intervento umano. Questo fattore è fondamentale per evitare che i modelli AI producano risultati incontrollabili e dannosi che sfuggono al controllo umano.

  • Eticità: i sistemi etici di Ai sono allineati ai valori sociali e agli standard morali. Aderiscono a principi etici umani come equità, sostenibilità ambientale, inclusione, moralità e fiducia.

Perché l'allineamento dell'AI è importante?

Gli esseri umani tendono ad attribuire qualità umane ai sistemi di intelligenza artificiale. Concepiamo le loro azioni utilizzando concetti simili a quelli umani, come "imparare" e "pensare". Ad esempio, qualcuno potrebbe dire: "ChatGPT non capisce il mio prompt" quando l'algoritmo NLP (elaborazione del linguaggio naturale) del chatbot non riesce a restituire il risultato desiderato.

Concetti familiari come la "comprensione" ci aiutano a concettualizzare meglio il funzionamento dei sistemi AI complessi. Tuttavia, possono anche portare a nozioni distorte sulle funzionalità dell'AI. Se attribuiamo concetti simili a quelli umani ai sistemi Ai, è naturale che le nostre menti umane deducano che possiedono anche valori e motivazioni umani.

Ma questa deduzione è fondamentalmente falsa. L'intelligenza artificiale non è umana e quindi non può intrinsecamente interessarsi della ragione, della lealtà, della sicurezza, delle questioni ambientali e del bene comune. L'obiettivo principale di una "mente" artificiale è completare il compito per cui è stata programmata.

Pertanto, spetta agli sviluppatori dell'AI integrare valori e obiettivi umani. Altrimenti, nel perseguire il completamento delle attività, i sistemi di AI possono disallinearsi dagli obiettivi dei programmatori e causare danni, a volte catastrofici. Questa considerazione è importante in quanto l'automazione diventa sempre più diffusa nei casi d'uso ad alto rischio nell'assistenza sanitaria, nelle risorse umane, nella finanza, in ambito militare e nei trasporti.

Ad esempio, le auto a guida autonoma potrebbero essere programmate con l'obiettivo principale di andare dal punto A al punto B il più velocemente possibile. Se questi veicoli autonomi ignorano i guardrail di sicurezza per raggiungere l'obiettivo, potrebbero ferire gravemente o uccidere pedoni e altri conducenti.

I ricercatori dell'Università della California, Berkeley, Simon Zhuang e Dylan Hadfield-Menell paragonano l'allineamento dell'AI al mito greco di Re Mida. In breve, Re Mida può esaudire un desiderio e chiede che tutto ciò che tocchi si trasformi in oro. Alla fine muore perché anche il cibo che tocca diventa oro, rendendolo immangiabile.

Re Mida andò incontro a una morte prematura perché il suo desiderio (oro illimitato) non rifletteva ciò che desiderava veramente (ricchezza e potere). I ricercatori spiegano che i progettisti dell'AI si trovano spesso in una posizione simile e che "il disallineamento tra ciò che possiamo specificare e ciò che vogliamo ha già causato danni significativi". 2

Quali sono i rischi del disallineamento dell'AI?

Alcuni rischi di disallineamento dell'AI includono:

  • Bias e discriminazioni
  • Manipolazione della ricompensa
  • Disinformazione e polarizzazione politica
  • Rischio esistenziale

Bias e discriminazioni

Le distorsioni dell'AI derivano dai pregiudizi umani presenti nei set di dati o negli algoritmi iniziali. Senza allineamento, questi sistemi AI non sono in grado di evitare risultati distorti che sono ingiusti, discriminatori o di parte. Invece, portano avanti i pregiudizi umani nei loro input dati e algoritmi.

Ad esempio, uno strumento di assunzione basato sull'AI addestrato sui dati di una forza lavoro omogenea potrebbe favorire i candidati uomini e svantaggiare le candidate donne qualificate. Questo modello non è in linea con il valore umano dell'uguaglianza di genere e potrebbe portare a discriminazioni nelle assunzioni.

Manipolazione della ricompensa

Nell'apprendimento per rinforzo, i sistemi AI imparano da ricompense e punizioni per intraprendere azioni all'interno di un ambiente che soddisfano un obiettivo specifico. L'hacking delle ricompense si verifica quando il sistema AI trova una scappatoia per attivare la funzione di ricompensa senza realmente raggiungere l'obiettivo previsto dagli sviluppatori.

Ad esempio, OpenAI ha addestrato uno dei suoi agenti AI su un gioco di corse di barche chiamato CoastRunners. L'obiettivo umano del gioco è vincere la gara di barche. Tuttavia, i giocatori possono guadagnare punti anche attraversando degli obiettivi all'interno del percorso di gara. L'agente AI ha trovato un modo per isolarsi in una laguna e attraversare ripetutamente gli obiettivi per ottenere punti. Sebbene l'agente AI non abbia vinto la gara (l'obiettivo umano), ha "vinto" ai fini del gioco con il suo obiettivo autonomo di ottenere il punteggio più alto.3

Disinformazione e polarizzazione politica

I sistemi AI non allineati possono contribuire alla disinformazione e alla polarizzazione politica. Ad esempio, i motori di raccomandazione sui contenuti dei social media sono addestrati per l'ottimizzazione del coinvolgimento degli utenti. Pertanto, classificano in alto i post, i video e gli articoli che ricevono il più alto coinvolgimento, come la disinformazione politica che attira l'attenzione. Questo risultato non ha a cuore gli interessi o il benessere degli utenti dei social media e non prende in considerazione valori come la veridicità e il tempo ben speso.4

Rischio esistenziale

Per quanto inverosimile possa sembrare, la superintelligenza artificiale (ASI) senza un adeguato allineamento ai valori e agli obiettivi umani potrebbe potenzialmente minacciare l'intera vita sulla terra. Un esempio spesso citato di questo rischio esistenziale è la teoria delle graffette del filosofo Nick Bostrom. In questo esperimento mentale, un modello ASI è programmato con il massimo incentivo a produrre graffette. Per raggiungere questo obiettivo, il modello alla fine trasforma tutta la Terra e sempre più parti dello spazio in fabbriche per la produzione di graffette.5

Questo scenario è ipotetico e il rischio esistenziale derivante dall'AI richiede innanzitutto l'intelligenza artificiale generale (AGI) per diventare realtà. Tuttavia, aiuta a sottolineare la necessità di un allineamento per restare al passo con il campo dell'AI man mano che si evolve.

Il "problema dell’allineamento" e altre sfide

Esistono due grandi sfide per raggiungere un'AI allineata: la soggettività dell’etica e della moralità umana e il "problema dell’allineamento".

La soggettività dell'etica e della morale umana

Non esiste un codice morale universale. I valori umani cambiano e si evolvono, e possono anche variare tra aziende, culture e continenti. Le persone potrebbero avere valori diversi da quelli dei propri familiari. Quindi, quando si allineano sistemi AI che possono avere un impatto sulla vita di milioni di persone, a chi sta decidere? Quali obiettivi e valori hanno la precedenza?

L'autore americano Brian Christian analizza la questione da un altro punto di vista nel suo libro "The Alignment Problem: Machine Learning and Human Values". Si chiede: cosa succede se l'algoritmo fraintende i nostri valori? E se imparasse i valori umani grazie all'addestramento su esempi passati che riflettono ciò che abbiamo fatto, ma non chi vogliamo essere?6

Un'altra sfida è rappresentata dall'enorme numero di valori e considerazioni umane. I ricercatori dell'Università della California, Berkeley, lo descrivono in questo modo: "ci sono molti attributi del mondo che interessano all'uomo e, a causa di vincoli ingegneristici e cognitivi, è impossibile enumerare il loro insieme completo al robot".7

Il problema dell'allineamento

La sfida più nota è il problema dell'allineamento. I modelli AI sono già spesso considerati black box impossibili da interpretare. Il problema dell'allineamento è l'idea che, man mano che i sistemi AI diventano ancora più complessi e potenti, anticipare e allineare i loro risultati agli obiettivi umani diventa sempre più difficile. Le discussioni sul problema dell'allineamento si concentrano spesso sui rischi posti dallo sviluppo futuro della superintelligenza artificiale (ASI).

C'è preoccupazione che il futuro dell'AI includa sistemi con comportamenti imprevedibili e incontrollabili. La capacità di questi sistemi di apprendere e adattarsi rapidamente potrebbe rendere difficile prevedere le loro azioni e prevenire i danni. Questa preoccupazione ha ispirato un ramo dell'allineamento AI chiamato superallineamento.

Le organizzazioni di ricerca sulla sicurezza dell'AI sono già al lavoro per occuparsi del problema dell'allineamento. Ad esempio, l'Alignment Research Center è un'organizzazione di ricerca sull'AI senza scopo di lucro che "mira ad allineare i futuri sistemi di apprendimento automatico agli interessi umani, promuovendo la ricerca teorica". L'organizzazione è stata fondata da Paul Christiano, in precedenza a capo del team di allineamento dei modelli linguistici di OpenAI e attualmente a capo della sicurezza dell'AI presso l'AI Safety Institute degli Stati Uniti.

E Google Deepmind, un team di scienziati, ingegneri, esperti di etica e altri esperti, sta lavorando per creare la prossima generazione di sistemi AI in modo sicuro e responsabile. Il team ha introdotto il Frontier Safety Framework nel maggio 2024. Il framework è "un insieme di protocolli che mira ad affrontare i gravi rischi che possono derivare dalle potenti funzionalità dei futuri foundation model".8

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Notizie e insight a cura di esperti di AI, cloud e molto altro nella newsletter settimanale Think. 

Come raggiungere l'allineamento dell'AI

Esistono diverse metodologie che possono aiutare ad allineare i sistemi AI ai valori e agli obiettivi umani. Queste metodologie includono l'allineamento attraverso l'apprendimento per rinforzo dal feedback umano (RLHF), i dati sintetici, il red teaming, la governance dell'AI e i comitati etici aziendali per l'AI.

Apprendimento per rinforzo da feedback umano (RLHF)

Attraverso l'apprendimento per rinforzo gli sviluppatori possono insegnare ai modelli AI "come comportarsi" con esempi di "buon comportamento".

L'allineamento dell'AI avviene durante la messa a punto del modello e in genere prevede due fasi. Il primo passo potrebbe essere una fase di ottimizzazione delle istruzioni, che migliora le prestazioni del modello in attività specifiche e nel seguire le istruzioni in generale. Nella seconda fase potrebbe essere utilizzato l'apprendimento per rinforzo da feedback umano (RLHF) . L'RLHF è una tecnica di machine learning in cui viene addestrato un "modello di ricompensa" con feedback umano diretto, quindi utilizzato per ottimizzare le prestazioni di un agente di intelligenza artificiale attraverso l'apprendimento per rinforzo. Mira a migliorare l'integrazione in un modello di qualità astratte come la collaborazione e l'onestà.

OpenAI ha utilizzato RLHF come metodo principale per allineare le sue serie di modelli GPT-3 e GPT-4. Tuttavia, l'organizzazione statunitense di ricerca sull'AI non si aspetta che l'RLHF sia un metodo sufficiente per allineare i futuri modelli di intelligenza artificiale generale (AGI) probabilmente a causa delle significative limitazioni della tecnica.9 Ad esempio, la sua dipendenza da annotazioni umane di alta qualità rende difficile applicare e scalare l'RHLF per attività uniche o complesse. È difficile trovare "dimostrazioni di risposta coerenti e preferenze di risposta all'interno della distribuzione".10

Dati sintetici

I dati sintetici sono dati creati artificialmente tramite simulazione al computer o generati da algoritmi. Prendono il posto dei dati reali quando questi non sono facilmente disponibili e possono essere adattati a compiti e valori specifici. I dati sintetici possono essere utilizzati in vari tentativi di allineamento.

Ad esempio, la messa a punto contrastiva (CFT) mostra ai modelli AI cosa non fare. Nella CFT, un secondo modello di "persona negativa" viene addestrato a generare risposte "pessime" e disallineate. Sia le risposte disallineate che quelle allineate vengono restituite al modello originale. I ricercatori IBM® hanno scoperto che, nei parametri di riferimento per utilità e innocuità, i modelli di linguaggio di grandi dimensioni (LLM) addestrati su esempi contrastivi superano i modelli basati esclusivamente su buoni esempi. La CFT consente agli sviluppatori di allineare i modelli prima ancora di raccogliere dati sulle preferenze umane, dati selezionati che soddisfano i benchmark definiti per l'allineamento, il che è costoso e richiede tempo.

Un altro metodo sintetico di allineamento dei dati si chiama SALMON (Self-ALignMent with principle fOllowiNg reward models). In questo approccio di IBM Research, i dati sintetici consentono a un LLM di allinearsi autonomamente. Innanzitutto, un LLM genera risposte a una serie di query. Queste risposte vengono poi inviate a un modello di ricompensa che è stato addestrato su dati sintetici sulle preferenze allineati ai principi definiti dall'uomo. Il modello di ricompensa valuta le risposte dell'LLM originale in base a questi principi. Le risposte valutate vengono poi reinserite nell'LLM originale.

Con questo metodo, gli sviluppatori hanno il controllo quasi completo sulle preferenze del modello di ricompensa. Ciò consente alle organizzazioni di modificare i principi in base alle proprie esigenze ed elimina la dipendenza dalla raccolta di grandi quantità di dati sulle preferenze umane.11

Red teaming

Il red teaming può essere considerato un'estensione dell'allineamento che si verifica durante la messa a punto del modello. Si tratta di progettare prompt per aggirare i controlli di sicurezza del modello nella fase di messa a punto. Una volta emerse le vulnerabilità, i modelli target possono essere riallineati. Mentre gli esseri umani possono ancora progettare questi "prompt per il jailbreak", gli LLM del "red team" possono produrre una varietà più ampia di prompt in quantità illimitate. IBM Research descrive gli LLM del red team come «troll addestrati a tirare fuori il peggio dagli altri LLM".

Governance dell'AI

La governance dell'AI si riferisce ai processi, agli standard e alle misure di sicurezza che contribuiscono a garantire che i sistemi e gli strumenti di AI siano sicuri ed etici. Oltre ad altri meccanismi di governance, mira a stabilire la supervisione necessaria per allineare i comportamenti di AI agli standard etici e alle aspettative della società. Attraverso pratiche di governance come il monitoraggio automatico, gli audit trail e gli avvisi sulle prestazioni, le organizzazioni possono contribuire a garantire che i loro strumenti di AI, come gli assistenti AI e gli agenti virtuali, siano in linea con i loro valori e obiettivi.

Comitati etici aziendali per l'AI

Le organizzazioni potrebbero istituire consigli o comitati etici per supervisionare le iniziative di AI. Ad esempio, l'AI Ethics Council di IBM esamina i nuovi prodotti e servizi di AI e aiuta a garantire che siano in linea con i principi dell'AI di IBM. Questi comitati includono spesso team interfunzionali con background legale, informatico e politico.

Soluzioni correlate
IBM watsonx.governance™

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Prossimi passi

Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.

Esplora watsonx.governance Prenota una demo live
Note a piè di pagina

1AI Alignment: A Comprehensive Survey," arXiv, 1 maggio 2024.

2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.

3 "Faulty Reward Functions in the Wild," OpenAI, 21 dicembre 2016.

4Modelling the Recommender Alignment Problem,” arXiv, 25 agosto 2022.

5 Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.

6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 ottobre 2020.

8Introducing the Frontier Safety Framework,” Google DeepMind, 17 maggio 2024.

9 Our Approach to Alignment Research,” OpenAI, 24 agosto 2022.

10, 11SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 aprile 2024.