La superintelligenza artificiale (ASI) è ancora un concetto ipotetico. Le attuali iniziative di allineamento dell'AI si concentrano pertanto in gran parte sul tentativo di rendere i modelli AI utili, sicuri e affidabili. Ad esempio, l'allineamento aiuta a garantire che gli AI chatbot come ChatGPT non perpetuino il bias umano o possano essere sfruttati dai criminali informatici.
Via via che l'AI diventa più complessa e avanzata, i suoi output diventano più difficili da prevedere e allineare agli intenti umani. Questa sfida viene spesso definita "il problema dell'allineamento". Si teme che i sistemi di AI superintelligenti possano un giorno raggiungere un punto di rottura e aggirare completamente il controllo umano. Inoltre, alcuni esperti ritengono che gli attuali rischi dell'AI potrebbero diventare esponenzialmente più gravi con i suoi progressi.
Questi timori, tra gli altri, hanno ispirato un ramo emergente dei progetti di allineamento avanzato, noto come superallineamento.
Per comprendere la superintelligenza artificiale (ASI), è utile vederla nel contesto degli altri tipi di intelligenza artificiale: intelligenza artificiale ristretta (ANI) e intelligenza artificiale generale (AGI). Possiamo classificare i tre tipi in base alle loro funzionalità:
Il campo dell'AI sta facendo passi da gigante in termini di progressi tecnologici. Ad esempio, AlphaFold 3 di DeepMind è in grado di prevedere la struttura e l'interazione molecolare con straordinaria precisione, mentre GPT-4o di OpenAI è in grado di ragionare in tempo reale.
Nonostante questi progressi, l'AI non è ancora umana. L'AI non si preoccupa intrinsecamente degli aspetti relativi alla ragione, alla lealtà o alla sicurezza, bensì ha un solo obiettivo: completare il compito per cui è stato programmata.
Pertanto, spetta agli sviluppatori integrare valori e obiettivi umani nell'AI. In caso contrario, si verifica un disallineamento e i sistemi di AI possono produrre output dannosi che portano a pregiudizi, discriminazioni e disinformazione.
Gli attuali sforzi in materia di allineamento puntano a mantenere i sistemi di AI debole in linea con i valori e gli obiettivi umani. Tuttavia, i sistemi AGI e ASI potrebbero essere esponenzialmente più rischiosi, più difficili da comprendere e più difficili da controllare. Le attuali tecniche di allineamento dell'AI, che si basano sull'intelligenza umana, sono probabilmente inadeguate per allineare i sistemi di AI che sono più intelligenti degli umani.
Ad esempio, l'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica di machine learning in cui viene addestrato un "reward model" con feedback umano diretto. OpenAI ha utilizzato l'RLHF come metodo principale per allineare i propri modelli GPT-3 e GPT-4, tutti considerati modelli di AI debole, che sono alla base di ChatGPT. Saranno necessarie tecniche di allineamento molto più avanzate per contribuire a garantire che i sistemi di AI superintelligenti abbiano livelli simili in termini di robustezza, interpretabilità, capacità di essere controllati ed etica.
Senza il superallineamento, i sistemi di AI avanzati potrebbero introdurre diversi rischi, tra cui:
Se i sistemi di AI avanzati diventassero così complessi e disallineati da rendere impossibile la supervisione umana, i loro risultati potrebbero essere imprevedibili e incontrollabili. Uno scenario in cui i robot umanoidi abbiano il sopravvento sull'uomo è considerato improbabile dalla maggior parte degli esperti. Tuttavia, un sistema AGI o ASI che si allontana troppo dagli obiettivi previsti potrebbe essere catastrofico in situazioni ad alto rischio, come nelle infrastrutture critiche o nella difesa nazionale.
L'AI superintelligente potrebbe perseguire obiettivi in modi che sono fondamentalmente dannosi per l'umanità. Un esempio comunemente citato è l'esperimento mentale del filosofo Nick Bostrom sulla massimizzazione delle graffette in cui un modello ASI è programmato per creare graffette. Con una potenza di calcolo sovrumana, il modello alla fine trasforma tutto, anche parti dello spazio, in strutture di produzione di graffette per perseguire il proprio obiettivo.1
Sebbene esistano diversi metodi affidabili per mitigare il bias nei sistemi di AI, il rischio rimane ancora un aspetto da considerare per l'AI del futuro. I sistemi di AI avanzati potrebbero perpetuare i pregiudizi umani con esiti ingiusti o discriminatori. A causa della complessità del sistema, questi risultati distorti potrebbero essere difficili da identificare e mitigare. Le distorsioni dell'AI sono particolarmente preoccupanti se presenti in settori come la sanità, le forze dell'ordine e le risorse umane.
I criminali informatici potrebbero utilizzare l'AI superintelligente per scopi illeciti, come per il controllo sociale o l'hacking finanziario su larga scala. Tuttavia, potrebbero verificarsi sconvolgimenti sociali ed economici anche se i settori adottassero un'AI avanzata senza i necessari framework legali o normativi.
Ad esempio, gli agenti AI finanziari sono sempre più utilizzati per attività come il trading o la gestione degli asset, tuttavia la responsabilità delle loro azioni non è spesso chiara. Chi è responsabile in caso di violazione delle normative SEC da parte di un agente AI? Con il progresso della tecnologia, questa mancanza di responsabilità potrebbe portare a sfiducia e instabilità.2
Alcune discussioni sull'ASI sollevano la preoccupazione che gli esseri umani potrebbero alla fine diventare troppo dipendenti dai sistemi di AI avanzati. Di conseguenza, potremmo potenzialmente perdere le nostre capacità cognitive e decisionali. Allo stesso modo, dipendere troppo dall'AI in aree come la cybersecurity potrebbe portare a un falso senso di sicurezza da parte dei team umani. L'AI non è infallibile ed è ancora necessaria la supervisione umana per garantire che tutte le minacce siano mitigate.
Attualmente esistono diverse tecniche per allineare l'AI, tra cui il reinforcement learning from human feedback (RLHF), gli approcci ai dati sintetici e i test antagonisti. Tuttavia, questi metodi sono forse inadeguati per allineare i modelli AI superintelligenti. Al momento della stesura di questo testo, non esistono né AGI né ASI e non esistono metodi consolidati per allineare questi sistemi di AI più complessi.
Ci sono tuttavia diverse idee di superallineamento con risultati di ricerca promettenti:
Come esseri umani, non siamo in grado di supervisionare in modo affidabile i sistemi di AI più intelligenti di noi. La supervisione scalabile è un metodo di apprendimento scalabile in cui gli esseri umani potrebbero utilizzare sistemi di AI più deboli per aiutare ad allineare sistemi di AI più complessi.
La ricerca per testare ed espandere questa tecnica è limitata, perché i sistemi di AI superintelligenti non esistono ancora. Tuttavia, i ricercatori di Anthropic (una società di ricerca e sicurezza nel campo dell'AI) hanno condotto un esperimento proof-of-concept.
Nell'esperimento, i partecipanti umani hanno risposto a delle domande con l'aiuto di un LLM. Assistiti dall'AI, i partecipanti hanno superato sia il modello da solo, sia gli esseri umani senza assistenza nella metrica relativa all'accuratezza. Nelle loro scoperte, i ricercatori hanno affermato che questi risultati sono incoraggianti e aiutano a confermare l'idea che gli LLM "possono aiutare gli esseri umani a svolgere compiti difficili in contesti rilevanti per la supervisione scalabile".3
La generalizzazione è la capacità dei sistemi di AI di fare previsioni in modo affidabile partendo da dati su cui non sono stati addestrati. La generalizzazione weak-to-strong è una tecnica di addestramento AI in cui modelli più deboli addestrano modelli più forti a ottenere prestazioni migliori su nuovi dati, migliorando la generalizzazione.
Il team di superallineamento di OpenAI, guidato da Ilya Sutskever (co-fondatore di OpenAI ed ex Chief Scientist) e da Jan Leike (ex Head of Alignment), ha discusso della generalizzazione weak-to-strong nel suo primo documento di ricerca. L’esperimento ha utilizzato un modello “debole” di livello GPT-2 per mettere a punto un modello di livello GPT-4. Utilizzando questo metodo, il team ha scoperto che le prestazioni del modello risultante erano comprese tra un livello GPT-3 e GPT-3.5 . Hanno concluso che con metodi weak-to-strong si possa migliorare notevolmente la generalizzazione.
Per quanto riguarda il superallineamento, questo esperimento proof-of-concept indica che è possibile un miglioramento sostanziale verso una generalizzazione weak-to-strong. Secondo la ricerca del team "oggi è possibile fare progressi empirici nell'ambito di una sfida fondamentale: allineare i modelli sovrumani".4 Uno studio di follow-up dell'Università Jiaotong di Pechino ha dimostrato inoltre che la generalizzazione weak-to-strong può essere migliorata utilizzando la supervisione scalabile.5
Tuttavia, il team di superallineamento di OpenAI è stato sciolto nel maggio 2024 a causa di cambiamenti di priorità all'interno dell'azienda. In un post sui social media, il CEO Sam Altman ha ringraziato il team e ha affermato che OpenAI ha "[gettato] le basi necessarie per l'implementazione sicura di sistemi sempre più capaci".6
Più in basso nella pipeline dell'allineamento si trova la ricerca automatizzata dell'allineamento. Questa tecnica di superallineamento utilizza sistemi di AI sovrumana già allineati per eseguire ricerche di allineamento automatizzate. Questi “ricercatori AI” sarebbero più veloci e intelligenti dei ricercatori umani. Con questi vantaggi, potrebbero potenzialmente ideare nuove tecniche di superallineamento. Invece di sviluppare e implementare direttamente la ricerca sull'allineamento tecnico, i ricercatori umani esaminerebbero invece la ricerca generata.
Leopold Aschenbrenner, investitore in AGI ed ex membro del team di superallineamento di OpenAI, descrive l'enorme potenziale di questa tecnica:"Se riuscissimo ad allineare abbastanza dei sistemi in parte sovrumani al punto di fidarci di loro, ci troveremmo in una posizione incredibile: avremmo a nostra disposizione milioni di ricercatori AI automatizzati, più intelligenti dei migliori ricercatori AI".7
Il superallineamento deve affrontare molte sfide. Ad esempio, chi definisce i benchmark per valori, obiettivi ed etica? Tuttavia, una sfida getta ombra su tutte: è estremamente difficile concepire tecniche di allineamento affidabili per potenti sistemi di AI che non solo ci superino in intelligenza, ma che esistono solo in teoria.
Anche gli esperti del settore si scontrano con divergenze filosofiche in merito al superallineamento. Ad esempio, alcuni laboratori di AI ipotizzano che concentrare gli sforzi di sviluppo dell'AI sull'allineamento dei futuri sistemi potrebbe ostacolare le attuali priorità dell'AI e le nuove ricerche. Dall'altro lato, i sostenitori della sicurezza dell'AI sostengono che i rischi della superintelligenza siano troppo gravi per essere ignorati e che superino i potenziali benefici.
Quest'ultima corrente di pensiero ha ispirato Ilya Sutskever, ex Chief Scientist di OpenAI, a unirsi all'investitore Daniel Gross e all'ex ricercatore di OpenAI Daniel Levy nella creazione di Safe Superintelligence Inc. L'obiettivo unico della startup è quello di "creare una superintelligenza sicura (SSI)" senza "distrazioni da parte del management o dei cicli di prodotto" e i progressi "sono isolati dalle pressioni commerciali a breve termine".8
Link esterni a ibm.com.
1 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
2 “Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 ottobre 2024.
3 “Measuring Progress on Scalable Oversight for Large Language Models,” Anthropic, 4 novembre 2022.
4 “Weak-to-strong generalization,” OpenAI, 14 dicembre 2023.
5 “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning,” arXiv, 1 febbraio 2024.
6 X post, Greg Brockman, 18 maggio 2024.
7 “Superalignment,” Situational Awareness: The Decade Ahead, giugno 2024.
8 “Superintelligence is within reach,” Safe Superintelligence Inc., 19 giugno 2024.
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.
Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.
Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.