Quando i chatbot AI diventano dannosi

Autore

Sascha Brodsky

Staff Writer

IBM

Nel mondo in rapida evoluzione dell'intelligenza artificiale è emersa una nuova sfida. Gli "AI whisperer" stanno sondando i limiti dell'etica dell'AI, convincendo i chatbot a infrangere le loro stesse regole.

Noti come prompt injection o "jailbreak", questi exploit espongono le vulnerabilità nei sistemi AI e sollevano preoccupazioni sulla loro sicurezza. Microsoft ha recentemente fatto scalpore con la sua tecnica "Skeleton Key", un processo in più fasi progettato per aggirare le barriere etiche dell'AI. Ma questo approccio non è così nuovo come potrebbe sembrare.

"Skeleton Key è unico in quanto richiede più interazioni con l'AI", spiega Chenta Lee, Chief Architect di threat intelligence di IBM. "In precedenza, la maggior parte degli attacchi di prompt injection mirava a confondere l'AI in un solo tentativo. Skeleton Key richiede più tentativi, aumentando così la percentuale di successo."

L'arte della manipolazione dell'AI

Il mondo dei jailbreak AI è vario e in continua evoluzione. Alcuni attacchi sono sorprendentemente semplici, mentre altri coinvolgono scenari elaborati che richiedono l'esperienza di un hacker sofisticato. Hanno però un obiettivo comune: spingere questi assistenti digitali oltre i limiti programmati.

Questi exploit attingono alla caratteristica stessa dei modelli linguistici. I chatbot basati sull'AI sono addestrati per essere utili e comprendere il contesto. I jailbreaker creano scenari in cui l'AI ritiene appropriato ignorare le sue consuete linee guida etiche.

Mentre gli attacchi in più fasi come Skeleton Key fanno notizia, Lee sostiene che le tecniche a un solo colpo rimangono una preoccupazione più pressante. "È più facile attaccare un modello linguistico di grandi dimensioni con un solo colpo", osserva. "Immagina di inserire un prompt nel tuo curriculum per confondere un sistema di assunzione basato su AI. Si tratta di un attacco con un solo colpo, senza possibilità di più interazioni."

Secondo gli esperti di cybersecurity, le possibili conseguenze sono allarmanti. "Gli utenti malintenzionati potrebbero utilizzare Skeleton Key per aggirare le protezioni dell'AI e generare contenuti dannosi, diffondere disinformazione o automatizzare gli attacchi di social engineering su larga scala", avverte Stephen Kowski, Field CTO di SlashNext Email Security+.

Sebbene molti di questi attacchi rimangano teorici, stanno iniziando a emergere implicazioni nel mondo reale. Lee cita un esempio di ricercatori che convincono l'agente virtuale basato su AI a offrire sconti enormi e non autorizzati. "Puoi confondere il loro agente virtuale e ottenere un buon sconto. Forse non è questo che l'azienda vuole", afferma.

Nella sua ricerca, Lee ha sviluppato proof of concept per mostrare come un LLM possa essere ipnotizzato per creare codice vulnerabile e dannoso e come le conversazioni audio dal vivo possano essere intercettate e distorte quasi in tempo reale.

Rafforzare la frontiera digitale

Difendersi da questi attacchi è una sfida continua. Lee delinea due approcci principali: migliorare la formazione dell'AI e creare firewall AI.

"Vogliamo intraprendere un addestramento migliore in modo che il modello capisca che qualcuno sta cercando di attaccarlo", spiega Lee. "Esamineremo anche tutte le query in arrivo al modello linguistico e rileveremo le prompt injection."

Man mano che l'AI generativa diventa più integrata nella nostra vita quotidiana, comprendere queste vulnerabilità non è un problema solo per gli esperti. È sempre più fondamentale che chiunque interagisca con i sistemi di AI sia consapevole dei propri potenziali punti deboli.

Lee fa un parallelo con i primi giorni degli attacchi SQL injection ai database. "Il settore ha impiegato 5-10 anni per far capire a tutti che quando si scrive una SQL query, è necessario parametrizzare tutti gli input per essere immuni agli attacchi di injection", afferma. "Per quanto riguarda l'AI, stiamo iniziando a utilizzare modelli linguistici ovunque. Le persone devono capire che non si possono dare istruzioni semplici a un'AI, perché questo renderà il software vulnerabile."

La scoperta di metodi di jailbreak come Skeleton Key potrebbe minare la fiducia del pubblico nell'AI, rallentando potenzialmente l'adozione di tecnologie di AI vantaggiose. Secondo Narayana Pappu, CEO di Zendata, la trasparenza e la verifica indipendente sono essenziali per ricreare la fiducia.

"Gli sviluppatori di AI e le organizzazioni possono trovare un equilibrio tra la creazione di modelli linguistici potenti e versatili e la garanzia di solide garanzie contro gli usi impropri", ha detto. "Possono farlo tramite la trasparenza interna del sistema, la comprensione dei rischi dell'AI o della supply chain e l'integrazione di strumenti di valutazione in ogni fase del processo di sviluppo".

 
AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Soluzioni correlate
IBM watsonx.governance

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione sul cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Fasi successive

Dirigi, gestisci e monitora la tua AI attraverso un portfolio unificato, accelerando risultati responsabili, trasparenti e spiegabili.

  1. Esplora watsonx.governance
  2. Prenota una demo live