Quando i chatbot AI diventano dannosi

Autore

Sascha Brodsky

Staff Writer

IBM

Nel mondo in rapida evoluzione dell'intelligenza artificiale è emersa una nuova sfida. Gli "AI whisperer" stanno sondando i limiti dell'etica dell'AI, convincendo i chatbot a infrangere le loro stesse regole.

Noti come prompt injection o "jailbreak", questi exploit espongono le vulnerabilità nei sistemi AI e sollevano preoccupazioni sulla loro sicurezza. Microsoft ha recentemente fatto scalpore con la sua tecnica "Skeleton Key", un processo in più fasi progettato per aggirare le barriere etiche dell'AI. Ma questo approccio non è così nuovo come potrebbe sembrare.

"Skeleton Key è unico in quanto richiede più interazioni con l'AI", spiega Chenta Lee, Chief Architect di threat intelligence di IBM. "In precedenza, la maggior parte degli attacchi di prompt injection mirava a confondere l'AI in un solo tentativo. Skeleton Key richiede più tentativi, aumentando così la percentuale di successo."

L'arte della manipolazione dell'AI

Il mondo dei jailbreak AI è vario e in continua evoluzione. Alcuni attacchi sono sorprendentemente semplici, mentre altri coinvolgono scenari elaborati che richiedono l'esperienza di un hacker sofisticato. Hanno però un obiettivo comune: spingere questi assistenti digitali oltre i limiti programmati.

Questi exploit attingono alla caratteristica stessa dei modelli linguistici. I chatbot basati sull'AI sono addestrati per essere utili e comprendere il contesto. I jailbreaker creano scenari in cui l'AI ritiene appropriato ignorare le sue consuete linee guida etiche.

Mentre gli attacchi in più fasi come Skeleton Key fanno notizia, Lee sostiene che le tecniche a un solo colpo rimangono una preoccupazione più pressante. "È più facile attaccare un modello linguistico di grandi dimensioni con un solo colpo", osserva. "Immagina di inserire un prompt nel tuo curriculum per confondere un sistema di assunzione basato su AI. Si tratta di un attacco con un solo colpo, senza possibilità di più interazioni."

Secondo gli esperti di cybersecurity, le possibili conseguenze sono allarmanti. "Gli utenti malintenzionati potrebbero utilizzare Skeleton Key per aggirare le protezioni dell'AI e generare contenuti dannosi, diffondere disinformazione o automatizzare gli attacchi di social engineering su larga scala", avverte Stephen Kowski, Field CTO di SlashNext Email Security+.

Sebbene molti di questi attacchi rimangano teorici, stanno iniziando a emergere implicazioni nel mondo reale. Lee cita un esempio di ricercatori che convincono l'agente virtuale basato su AI a offrire sconti enormi e non autorizzati. "Puoi confondere il loro agente virtuale e ottenere un buon sconto. Forse non è questo che l'azienda vuole", afferma.

Nella sua ricerca, Lee ha sviluppato proof of concept per mostrare come un LLM possa essere ipnotizzato per creare codice vulnerabile e dannoso e come le conversazioni audio dal vivo possano essere intercettate e distorte quasi in tempo reale.

Pensa oltre i prompt e considera il contesto completo 

Resta aggiornato sulle ultime novità del settore, sugli strumenti di AI e sulle tendenze emergenti nel prompt engineering con la Think Newsletter. Inoltre, avrai accesso a nuovi articoli esplicativi, tutorial e insight, direttamente nella tua casella di posta. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

Rafforzare la frontiera digitale

Difendersi da questi attacchi è una sfida continua. Lee delinea due approcci principali: migliorare la formazione dell'AI e creare firewall AI.

"Vogliamo intraprendere un addestramento migliore in modo che il modello capisca che qualcuno sta cercando di attaccarlo", spiega Lee. "Esamineremo anche tutte le query in arrivo al modello linguistico e rileveremo le prompt injection."

Man mano che l'AI generativa diventa più integrata nella nostra vita quotidiana, comprendere queste vulnerabilità non è un problema solo per gli esperti. È sempre più fondamentale che chiunque interagisca con i sistemi di AI sia consapevole dei propri potenziali punti deboli.

Lee fa un parallelo con i primi giorni degli attacchi SQL injection ai database. "Il settore ha impiegato 5-10 anni per far capire a tutti che quando si scrive una SQL query, è necessario parametrizzare tutti gli input per essere immuni agli attacchi di injection", afferma. "Per quanto riguarda l'AI, stiamo iniziando a utilizzare modelli linguistici ovunque. Le persone devono capire che non si possono dare istruzioni semplici a un'AI, perché questo renderà il software vulnerabile."

La scoperta di metodi di jailbreak come Skeleton Key potrebbe minare la fiducia del pubblico nell'AI, rallentando potenzialmente l'adozione di tecnologie di AI vantaggiose. Secondo Narayana Pappu, CEO di Zendata, la trasparenza e la verifica indipendente sono essenziali per ricreare la fiducia.

"Gli sviluppatori di AI e le organizzazioni possono trovare un equilibrio tra la creazione di modelli linguistici potenti e versatili e la garanzia di solide garanzie contro gli usi impropri", ha detto. "Possono farlo tramite la trasparenza interna del sistema, la comprensione dei rischi dell'AI o della supply chain e l'integrazione di strumenti di valutazione in ogni fase del processo di sviluppo".

 
AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Soluzioni correlate
IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI
Prossimi passi

Attraverso l'AI, IBM Concert scopre insight di importanza chiave sulle operazioni e fornisce raccomandazioni specifiche per migliorare le applicazioni. Scopri come Concert può migliorare il tuo business.

Esplora Concert Esplora le soluzioni di automazione dei processi aziendali