Che cos'è il superallineamento?

Icona di avviso su un display LCD digitale con riflesso

Autori

Alexandra Jonker

Staff Editor

IBM Think

Amanda McGrath

Staff Writer

IBM Think

Che cos'è il superallineamento?

Il superallineamento è il processo di supervisione, controllo e governo dei sistemi di superintelligenza artificiale. Allineare i sistemi di AI avanzati con i valori e gli obiettivi umani può aiutare a evitare che mostrino comportamenti dannosi e incontrollabili.
 

La superintelligenza artificiale (ASI) è ancora un concetto ipotetico. Le attuali iniziative di allineamento dell'AI si concentrano pertanto in gran parte sul tentativo di rendere i modelli AI utili, sicuri e affidabili. Ad esempio, l'allineamento aiuta a garantire che gli AI chatbot come ChatGPT non perpetuino il bias umano o possano essere sfruttati dai criminali informatici.

Via via che l'AI diventa più complessa e avanzata, i suoi output diventano più difficili da prevedere e allineare agli intenti umani. Questa sfida viene spesso definita "il problema dell'allineamento". Si teme che i sistemi di AI superintelligenti possano un giorno raggiungere un punto di rottura e aggirare completamente il controllo umano. Inoltre, alcuni esperti ritengono che gli attuali rischi dell'AI potrebbero diventare esponenzialmente più gravi con i suoi progressi.

Questi timori, tra gli altri, hanno ispirato un ramo emergente dei progetti di allineamento avanzato, noto come superallineamento.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Che cos'è la superintelligenza artificiale?

Per comprendere la superintelligenza artificiale (ASI), è utile vederla nel contesto degli altri tipi di intelligenza artificiale: intelligenza artificiale ristretta (ANI) e intelligenza artificiale generale (AGI). Possiamo classificare i tre tipi in base alle loro funzionalità:

  • ANI: al livello base ci sono i sistemi di AI che utilizziamo attualmente. Questi sistemi sono considerati tecnologie di intelligenza artificiale ristretta (ANI), AI debole o AI ristretta. Esempi comuni includono veicoli autonomi, modelli linguistici di grandi dimensioni (LLM) e strumenti di AI generativa.  

  • AGI: il livello successivo è l'intelligenza artificiale forte (AI), nota anche come intelligenza artificiale generale (AGI) o AI generale. Pur essendo ancora teorica, poiché potrebbe non essere mai realizzata, l'AGI avrebbe un'intelligenza pari a quella degli esseri umani. L'AI debole si concentra sull'esecuzione di un compito specifico, mentre l'AI forte può svolgere diverse funzioni, imparando autonomamente a risolvere nuovi problemi.

  • ASI: al livello più alto c'è la superintelligenza artificiale (ASI). I sistemi ASI sono tecnologie di AI ipotetiche con una portata intellettuale che va oltre l'intelligenza umana. Un'AI superintelligente avrebbe funzioni cognitive estremamente avanzate e capacità di pensiero altamente sviluppate. Tuttavia, la fattibilità dell'ASI nel mondo reale è oggetto di dibattito. Il funzionamento del cervello umano non è ancora stato del tutto compreso, il che rende difficile ricrearlo attraverso algoritmi e informatica.
AI Academy

Fiducia, trasparenza e governance in tema di AI

La fiducia nell'AI è senza dubbio il tema più importante per quanto concerne l'AI. Comprensibilmente, si tratta anche di un tema di estrema complessità. Analizzeremo pertanto aspetti quali le allucinazioni, i bias e i rischi, condividendo spunti e suggerimenti per un'adozione dell'AI che sia etica, responsabile ed equa.

Perché serve il superallineamento?

Il campo dell'AI sta facendo passi da gigante in termini di progressi tecnologici. Ad esempio, AlphaFold 3 di DeepMind è in grado di prevedere la struttura e l'interazione molecolare con straordinaria precisione, mentre GPT-4o di OpenAI è in grado di ragionare in tempo reale.

Nonostante questi progressi, l'AI non è ancora umana. L'AI non si preoccupa intrinsecamente degli aspetti relativi alla ragione, alla lealtà o alla sicurezza, bensì ha un solo obiettivo: completare il compito per cui è stato programmata.

Pertanto, spetta agli sviluppatori integrare valori e obiettivi umani nell'AI. In caso contrario, si verifica un disallineamento e i sistemi di AI possono produrre output dannosi che portano a pregiudizi, discriminazioni e disinformazione.

Gli attuali sforzi in materia di allineamento puntano a mantenere i sistemi di AI debole in linea con i valori e gli obiettivi umani. Tuttavia, i sistemi AGI e ASI potrebbero essere esponenzialmente più rischiosi, più difficili da comprendere e più difficili da controllare. Le attuali tecniche di allineamento dell'AI, che si basano sull'intelligenza umana, sono probabilmente inadeguate per allineare i sistemi di AI che sono più intelligenti degli umani.

Ad esempio, l'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica di machine learning in cui viene addestrato un "reward model" con feedback umano diretto. OpenAI ha utilizzato l'RLHF come metodo principale per allineare i propri modelli GPT-3 e GPT-4, tutti considerati modelli di AI debole, che sono alla base di ChatGPT. Saranno necessarie tecniche di allineamento molto più avanzate per contribuire a garantire che i sistemi di AI superintelligenti abbiano livelli simili in termini di robustezza, interpretabilità, capacità di essere controllati ed etica.

Quali sono i rischi dei sistemi di AI avanzati?

Senza il superallineamento, i sistemi di AI avanzati potrebbero introdurre diversi rischi, tra cui:

  • Perdita di controllo
  • Conseguenze indesiderate
  • Bias e discriminazioni
  • Problemi sociali ed economici
  • Dipendenza dall'AI

Perdita di controllo

Se i sistemi di AI avanzati diventassero così complessi e disallineati da rendere impossibile la supervisione umana, i loro risultati potrebbero essere imprevedibili e incontrollabili. Uno scenario in cui i robot umanoidi abbiano il sopravvento sull'uomo è considerato improbabile dalla maggior parte degli esperti. Tuttavia, un sistema AGI o ASI che si allontana troppo dagli obiettivi previsti potrebbe essere catastrofico in situazioni ad alto rischio, come nelle infrastrutture critiche o nella difesa nazionale.

Conseguenze indesiderate

L'AI superintelligente potrebbe perseguire obiettivi in modi che sono fondamentalmente dannosi per l'umanità. Un esempio comunemente citato è l'esperimento mentale del filosofo Nick Bostrom sulla massimizzazione delle graffette in cui un modello ASI è programmato per creare graffette. Con una potenza di calcolo sovrumana, il modello alla fine trasforma tutto, anche parti dello spazio, in strutture di produzione di graffette per perseguire il proprio obiettivo.1

Bias e discriminazioni

Sebbene esistano diversi metodi affidabili per mitigare il bias nei sistemi di AI, il rischio rimane ancora un aspetto da considerare per l'AI del futuro. I sistemi di AI avanzati potrebbero perpetuare i pregiudizi umani con esiti ingiusti o discriminatori. A causa della complessità del sistema, questi risultati distorti potrebbero essere difficili da identificare e mitigare. Le distorsioni dell'AI sono particolarmente preoccupanti se presenti in settori come la sanità, le forze dell'ordine e le risorse umane

Problemi sociali ed economici

I criminali informatici potrebbero utilizzare l'AI superintelligente per scopi illeciti, come per il controllo sociale o l'hacking finanziario su larga scala. Tuttavia, potrebbero verificarsi sconvolgimenti sociali ed economici anche se i settori adottassero un'AI avanzata senza i necessari framework legali o normativi.

Ad esempio, gli agenti AI finanziari sono sempre più utilizzati per attività come il trading o la gestione degli asset, tuttavia la responsabilità delle loro azioni non è spesso chiara. Chi è responsabile in caso di violazione delle normative SEC da parte di un agente AI? Con il progresso della tecnologia, questa mancanza di responsabilità potrebbe portare a sfiducia e instabilità.2

Dipendenza dall'AI

Alcune discussioni sull'ASI sollevano la preoccupazione che gli esseri umani potrebbero alla fine diventare troppo dipendenti dai sistemi di AI avanzati. Di conseguenza, potremmo potenzialmente perdere le nostre capacità cognitive e decisionali. Allo stesso modo, dipendere troppo dall'AI in aree come la cybersecurity potrebbe portare a un falso senso di sicurezza da parte dei team umani. L'AI non è infallibile ed è ancora necessaria la supervisione umana per garantire che tutte le minacce siano mitigate. 

Tecniche di superallineamento

Attualmente esistono diverse tecniche per allineare l'AI, tra cui il reinforcement learning from human feedback (RLHF), gli approcci ai dati sintetici e i test antagonisti. Tuttavia, questi metodi sono forse inadeguati per allineare i modelli AI superintelligenti. Al momento della stesura di questo testo, non esistono né AGI né ASI e non esistono metodi consolidati per allineare questi sistemi di AI più complessi.

Ci sono tuttavia diverse idee di superallineamento con risultati di ricerca promettenti:

Supervisione scalabile

Come esseri umani, non siamo in grado di supervisionare in modo affidabile i sistemi di AI più intelligenti di noi. La supervisione scalabile è un metodo di apprendimento scalabile in cui gli esseri umani potrebbero utilizzare sistemi di AI più deboli per aiutare ad allineare sistemi di AI più complessi.

La ricerca per testare ed espandere questa tecnica è limitata, perché i sistemi di AI superintelligenti non esistono ancora. Tuttavia, i ricercatori di Anthropic (una società di ricerca e sicurezza nel campo dell'AI) hanno condotto un esperimento proof-of-concept.

Nell'esperimento, i partecipanti umani hanno risposto a delle domande con l'aiuto di un LLM. Assistiti dall'AI, i partecipanti hanno superato sia il modello da solo, sia gli esseri umani senza assistenza nella metrica relativa all'accuratezza. Nelle loro scoperte, i ricercatori hanno affermato che questi risultati sono incoraggianti e aiutano a confermare l'idea che gli LLM "possono aiutare gli esseri umani a svolgere compiti difficili in contesti rilevanti per la supervisione scalabile".3

Generalizzazione weak-to-strong

La generalizzazione è la capacità dei sistemi di AI di fare previsioni in modo affidabile partendo da dati su cui non sono stati addestrati. La generalizzazione weak-to-strong è una tecnica di addestramento AI in cui modelli più deboli addestrano modelli più forti a ottenere prestazioni migliori su nuovi dati, migliorando la generalizzazione.

Il team di superallineamento di OpenAI, guidato da Ilya Sutskever (co-fondatore di OpenAI ed ex Chief Scientist) e da Jan Leike (ex Head of Alignment), ha discusso della generalizzazione weak-to-strong nel suo primo documento di ricerca. L’esperimento ha utilizzato un modello “debole” di livello GPT-2 per mettere a punto un modello di livello GPT-4. Utilizzando questo metodo, il team ha scoperto che le prestazioni del modello risultante erano comprese tra un livello GPT-3 e GPT-3.5 . Hanno concluso che con metodi weak-to-strong si possa migliorare notevolmente la generalizzazione.

Per quanto riguarda il superallineamento, questo esperimento proof-of-concept indica che è possibile un miglioramento sostanziale verso una generalizzazione weak-to-strong. Secondo la ricerca del team "oggi è possibile fare progressi empirici nell'ambito di una sfida fondamentale: allineare i modelli sovrumani".4 Uno studio di follow-up dell'Università Jiaotong di Pechino ha dimostrato inoltre che la generalizzazione weak-to-strong può essere migliorata utilizzando la supervisione scalabile.5

Tuttavia, il team di superallineamento di OpenAI è stato sciolto nel maggio 2024 a causa di cambiamenti di priorità all'interno dell'azienda. In un post sui social media, il CEO Sam Altman ha ringraziato il team e ha affermato che OpenAI ha "[gettato] le basi necessarie per l'implementazione sicura di sistemi sempre più capaci".6

Ricerca automatizzata dell'allineamento

Più in basso nella pipeline dell'allineamento si trova la ricerca automatizzata dell'allineamento. Questa tecnica di superallineamento utilizza sistemi di AI sovrumana già allineati per eseguire ricerche di allineamento automatizzate. Questi “ricercatori AI” sarebbero più veloci e intelligenti dei ricercatori umani. Con questi vantaggi, potrebbero potenzialmente ideare nuove tecniche di superallineamento. Invece di sviluppare e implementare direttamente la ricerca sull'allineamento tecnico, i ricercatori umani esaminerebbero invece la ricerca generata.

Leopold Aschenbrenner, investitore in AGI ed ex membro del team di superallineamento di OpenAI, descrive l'enorme potenziale di questa tecnica:"Se riuscissimo ad allineare abbastanza dei sistemi in parte sovrumani al punto di fidarci di loro, ci troveremmo in una posizione incredibile: avremmo a nostra disposizione milioni di ricercatori AI automatizzati, più intelligenti dei migliori ricercatori AI".7

Superallineamento e innovazione AI a confronto

Il superallineamento deve affrontare molte sfide. Ad esempio, chi definisce i benchmark per valori, obiettivi ed etica? Tuttavia, una sfida getta ombra su tutte: è estremamente difficile concepire tecniche di allineamento affidabili per potenti sistemi di AI che non solo ci superino in intelligenza, ma che esistono solo in teoria.

Anche gli esperti del settore si scontrano con divergenze filosofiche in merito al superallineamento. Ad esempio, alcuni laboratori di AI ipotizzano che concentrare gli sforzi di sviluppo dell'AI sull'allineamento dei futuri sistemi potrebbe ostacolare le attuali priorità dell'AI e le nuove ricerche. Dall'altro lato, i sostenitori della sicurezza dell'AI sostengono che i rischi della superintelligenza siano troppo gravi per essere ignorati e che superino i potenziali benefici.

Quest'ultima corrente di pensiero ha ispirato Ilya Sutskever, ex Chief Scientist di OpenAI, a unirsi all'investitore Daniel Gross e all'ex ricercatore di OpenAI Daniel Levy nella creazione di Safe Superintelligence Inc. L'obiettivo unico della startup è quello di "creare una superintelligenza sicura (SSI)" senza "distrazioni da parte del management o dei cicli di prodotto" e i progressi "sono isolati dalle pressioni commerciali a breve termine".8

Note a piè di pagina

Link esterni a ibm.com.

1Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.

2Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 ottobre 2024.

3 Measuring Progress on Scalable Oversight for Large Language Models,” Anthropic, 4 novembre 2022.

4Weak-to-strong generalization,” OpenAI, 14 dicembre 2023.

5Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning,” arXiv, 1 febbraio 2024.

6 X post, Greg Brockman, 18 maggio 2024.

7Superalignment,” Situational Awareness: The Decade Ahead, giugno 2024.

8Superintelligence is within reach,” Safe Superintelligence Inc., 19 giugno 2024.

Soluzioni correlate
IBM watsonx.governance™

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Prossimi passi

Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.

Esplora watsonx.governance Prenota una demo live