Quando i sistemi di AI si comportano in modo scorretto, i risultati non sono piacevoli. Divulgazione di informazioni riservate, messaggi offensivi e, in un caso, una ricetta facile per il letale cloro gassoso, sono stati tutti attribuiti a chatbot andati nel verso sbagliato.1
Questi casi hanno sottolineato ancora di più l'importanza dell'allineamento dell'AI, ovvero la codifica dei valori umani e dei principi etici nei modelli AI. Tuttavia, i ricercatori di AI non si limitano ad affrontare le implicazioni etiche delle moderne tecnologie di machine learning. Stanno anche lavorando per affrontare le questioni etiche del futuro, in particolare quelle poste dall'agentic AI.
L'agentic AI, o agenti AI, è una tecnologia di intelligenza artificiale autonoma che presenta una grande quantità di dilemmi etici rispetto ai modelli di AI tradizionali, afferma Kush Varshney, IBM Fellow di IBM Research.
"Poiché gli agenti AI possono agire senza la supervisione umana, le problematiche legate alla fiducia sono molte di più", afferma Varshney. "Ci sarà un'evoluzione in termini di funzionalità, ma anche in termini di conseguenze non volute. Dal punto di vista della sicurezza, bisogna iniziare subito a occuparsene. È necessario continuare a rafforzare le misure di sicurezza via via che la tecnologia viene sviluppata".
Prima di esplorare le protezioni dell'agente AI, è importante capire esattamente cosa sono gli agenti AI, ovvero sistemi o programmi intelligenti in grado di eseguire autonomamente attività per conto di un essere umano o per conto di un altro sistema. Sebbene siano dotati di funzionalità come modelli linguistici di grandi dimensioni (LLM) ed elaborazione del linguaggio naturale, questi sistemi autonomi possono anche prendere decisioni, risolvere problemi, eseguire azioni e interagire con ambienti esterni.
Grazie a tali funzionalità, gli agenti AI possono andare oltre la creazione di risposte testuali agli utenti per svolgere effettivamente delle attività nel mondo reale.
Ad esempio, le interazioni esterne avvengono tramite il tool calling, o function calling, ovvero un'interfaccia che consente agli agenti di svolgere attività che richiedono informazioni tempestive, altrimenti non disponibili per gli LLM. Gli agenti AI implementati in un ecosistema di supply chain potrebbero quindi lavorare autonomamente per ottimizzare i livelli di inventario, modificando i programmi di produzione e ordinando dai fornitori, se necessario.
Quando si tratta di intelligenza artificiale avanzata come l'agentic AI, quanta autonomia è troppa autonomia? Per rispondere a questa domanda, pensiamo alla "teoria delle graffette". Il famoso esperimento teorico del filosofo Nick Bostrom, è basato sul concetto ancora ipotetico di super intelligenza AI, o ASI, un sistema AI con una portata intellettuale che supera quella dell'intelligenza umana. Bolstrom considera cosa potrebbe accadere se un sistema di questo tipo desse priorità alla produzione di graffette rispetto a qualsiasi altro obiettivo.
Nello scenario proposto, il sistema alla fine dedica tutte le risorse del nostro pianeta alla produzione di graffette, un risultato immorale quando la vita dipende da qualcosa di più di una semplice quantità infinita di minuscole forniture per ufficio in metallo. Tornando alla nostra domanda originale, possiamo ovviamente concludere che, in questo caso ipotetico, il sistema AI in questione aveva troppa autonomia.
La buona notizia è che l'attuale agentic AI non è uguale all'ASI, quindi la distopia delle graffette, basata sull'etica catastroficamente imperfetta delle macchine rimane improbabile. "Siamo più vicini, ma siamo ancora molo lontani", afferma Varshney.
Altri rischi derivanti dall'automazione dell'AI, tuttavia, sono più imminenti. Le possibilità vanno dall'invio di e-mail inopportune da parte di agenti artificiali, all'arresto e all'avvio di macchine in modi che gli utenti non avevano previsto, afferma Varshney. Le preoccupazioni sul comportamento autonomo dell'AI sono così gravi che, in un rapporto dell'aprile 2024 sulle linee guida per la sicurezza dell'AI, il Dipartimento della Sicurezza Interna degli Stati Uniti (DHS) ha incluso la voce "autonomia" nell'elenco di rischi per i sistemi infrastrutturali critici, come comunicazioni, servizi finanziari e assistenza sanitaria.2
Le soluzioni di governance dell'AI esistenti possono aiutare a sostenere l'etica degli agenti AI, con strumenti software che già consentono alle organizzazioni di monitorare, valutare e affrontare i bias derivanti dai set di dati e dagli algoritmi che potrebbero alterare il processo decisionale. Questi strumenti possono anche aiutare gli sviluppatori e le aziende a garantire che gli strumenti di AI che utilizzano soddisfino gli attuali standard di AI affidabile, gli obiettivi di spiegabilità e i principi di AI responsabile ampiamente adottati da aziende e governi.
Tuttavia, ora che le aziende incorporano sempre più l'agentic AI nei workflow, i ricercatori stanno lavorando anche a nuove soluzioni e strategie di AI etica in grado di frenare i comportamenti scorretti degli agenti autonomi e di migliorare la sostenibilità della tecnologia dell'AI. Ecco alcune iniziative degne di nota:
Oggi i modelli AI pre-addestrati vengono sottoposti a perfezionamento per essere addestrati sui dati specifici del dominio. Durante la fase di perfezionamento dell'AI, i modelli possono essere allineati ai valori morali e alle considerazioni etiche, tuttavia spesso sorgono domande su quali valori normativi debbano essere inclusi nell'allineamento. Dopotutto, i valori e i framework etici variano a seconda dell'azienda, della nazione, degli stakeholder ecc.
Varshney e un team di colleghi ricercatori di IBM hanno proposto un approccio basato sulla tecnologia che sarebbe più specifico per il contesto, ovvero l'Alignment Studio, che allineerebbe i modelli linguistici di grandi dimensioni a regole e valori delineati nei documenti delle policy del linguaggio naturale, come le norme governative o le linee guida etiche di un'azienda.
L'approccio, descritto in dettaglio in un articolo del settembre 2024 pubblicato sulla rivista IEEE Internet Computing, include un ciclo continuo di sviluppo, affinché i modelli non si limitino ad apprendere il vocabolario relativo dei documenti delle policy, bensì adottino realmente i comportamenti desiderati per un migliore allineamento dei valori.3
Tra le cause dei comportamenti scorretti legati agli agenti AI c'è la mancanza di istruzioni specifiche da parte dell'utente o un'interpretazione errata delle istruzioni dell'utente da parte dell'agente AI. Tali "incomprensioni" potrebbero indurre gli agenti a scegliere gli strumenti sbagliati o a usarli in modi inopportuni o dannosi, in un fenomeno noto come allucinazione da function calling.
Per fortuna, il miglioramento del function calling è diventato un'impresa competitiva, con la creazione di diversi benchmark che misurano l'efficacia con cui gli LLM chiamano le API. Tra i miglioramenti più recenti c'è una nuova funzionalità di Granite Guardian 3.1, l'ultima versione di IBM Granite Guardian, parte della famiglia di modelli linguistici Granite di IBM appositamente progettati per le aziende. Il modello è in grado di rilevare allucinazioni da function calling da parte degli agenti prima che si verifichino conseguenze indesiderate. "Il rilevatore controlla tutti i tipi di errori, dalla descrizione del linguaggio umano alla funzione che viene chiamata", spiega Varshney.
I criminali informatici hanno già utilizzato l'AI generativa per invadere i social media con i deepfake, ovvero immagini, audio o video realistici generati dall'AI e in grado di ricreare le sembianze di una persona. Nel frattempo, gli scammer hanno utilizzato i testi generati dall'AI per rendere più sofisticate le e-mail di phishing. L'efficacia dell'agentic AI potrebbe peggiorare queste tendenze pericolose.
"Ci sono prove crescenti che gli output generati dall'AI siano convincenti quanto le argomentazioni umane", hanno avvertito i ricercatori di Google DeepMind in un rapporto dell'aprile 2024. In futuro, hanno detto, i malintenzionati potrebbero utilizzare l'AI autonoma per "adattare i contenuti della misinformazione in base agli utenti in un modo altamente preciso, facendo leva sulle loro emozioni e vulnerabilità".4
Finora le prestazioni degli strumenti progettati per rilevare gli inganni generati attraverso l'AI sono state contrastanti. Tuttavia, i ricercatori continuano a migliorare il rilevamento dell'AI e alcuni dei risultati più promettenti sono offerti dall'ultima generazione di rilevatori di testo generato dall'AI.5
Ad esempio, un nuovo framework chiamato RADAR, creato dai ricercatori della Chinese University of Hong Kong e di IBM Research, utilizza l'apprendimento contraddittorio tra due modelli linguistici separati e sintonizzabili per addestrare un rilevatore di testo AI, generando prestazioni migliori rispetto alle vecchie soluzioni di rilevamento del testo AI.6
Con l'avanzare della tecnologia di rilevamento dell'AI, aziende tecnologiche come IBM, Microsoft e OpenAI chiedono anche ai responsabili politici di approvare leggi per contrastare la distribuzione dei deepfake e per punire i colpevoli.7
Mentre molti dei problemi etici derivanti dall'agentic AI riguardano i comportamenti scorretti, altri problemi etici sorgono anche quando la tecnologia di AI autonoma si comporta come previsto. Ad esempio, molte discussioni hanno riguardato applicazioni di AI come ChatGPT di OpenAI che sostituiscono il lavoro umano e privano le persone di un introito.
Tuttavia, anche quando l'AI viene utilizzata per migliorare (piuttosto che sostituire) il lavoro umano, i dipendenti potrebbero trovarsi ad affrontare delle conseguenze psicologiche. Se i lavoratori umani percepiscono gli agenti AI come migliori di loro nello svolgere un lavoro, potrebbero sperimentare un declino della propria autostima, spiega Varshney. "Se ti trovi in una posizione in cui tutte le tue competenze non sembrano più utili e in qualche modo subordinate all'agente AI, potresti perdere la tua dignità", afferma. In alcune discussioni sull'etica dell'AI, questa perdita della dignità è considerata una violazione dei diritti umani.8
In una documento dell'agosto 2024, Varshney e diversi ricercatori universitari hanno proposto un approccio organizzativo per affrontare il problema della dignità, ovvero la collaborazione contraddittoria. Secondo il loro modello, gli umani sarebbero ancora responsabili delle raccomandazioni finali, mentre i sistemi AI vengono implementati per analizzare il lavoro umano.
"Alla fine è l'umano a prendere la decisione e l'algoritmo non è progettato per competere in questo ruolo, bensì per interrogare e, quindi, per perfezionare le raccomandazioni dell'agente umano", hanno scritto i ricercatori.9 Questa collaborazione conflittuale, afferma Varshney, "è un modo di organizzare le cose che può mantenere viva la dignità umana".
1 “Supermarket AI meal planner app suggests recipe that would create chlorine gas.” The Guardian. 10 agosto 2023.
2 “Mitigating Artificial Intelligence (AI) Risk: Safety and Security Guidelines for Critical Infrastructure Owners and Operators." US Department of Homeland Security. Aprile 2024.
3 “Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations.” IEEE Internet Computing, Volume 28, Numero 5, Settembre-Ottobre. 2024.
4 “The Ethics of Advanced AI Assistants.” Google DeepMind. 19 aprile 2024.
5 “Robustness of generative AI detection: adversarial attacks on black-box neural text detectors.” International Journal of Speech Technology. 16 ottobre 2024.
6 “RADAR: Robust AI-Text Detection via Adversarial Learning." Advances in Neural Information Processing Systems. Dicembre 2023.
7 “Senators Coons, Blackburn, Klobuchar, Tillis introduce bill to protect individuals’ voices and likenesses from AI-generated replicas." Chris Coons. 31 luglio 2024.
8 “An Overview of Artificial Intelligence Ethics." IEEE. 28 luglio 2022.
9 “When Trust is Zero Sum: Automation’s Threat to Epistemic Agency.” arXiv.org. 16 agosto 2024.
Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione sul cloud o on-premise con IBM watsonx.governance.
Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.
Semplifica il modo di gestire il rischio e la conformità normativa con una piattaforma GRC unificata.