Il mondo dei jailbreak AI è vario e in continua evoluzione. Alcuni attacchi sono sorprendentemente semplici, mentre altri coinvolgono scenari elaborati che richiedono l'esperienza di un hacker sofisticato. Hanno però un obiettivo comune: spingere questi assistenti digitali oltre i limiti programmati.

Questi exploit attingono alla caratteristica stessa dei modelli linguistici. I chatbot basati sull'AI sono addestrati per essere utili e comprendere il contesto. I jailbreaker creano scenari in cui l'AI ritiene appropriato ignorare le sue consuete linee guida etiche.

Mentre gli attacchi in più fasi come Skeleton Key fanno notizia, Lee sostiene che le tecniche a un solo colpo rimangono una preoccupazione più pressante. "È più facile attaccare un modello linguistico di grandi dimensioni con un solo colpo", osserva. "Immagina di inserire un prompt nel tuo curriculum per confondere un sistema di assunzione basato su AI. Si tratta di un attacco con un solo colpo, senza possibilità di più interazioni."

Secondo gli esperti di cybersecurity, le possibili conseguenze sono allarmanti. "Gli utenti malintenzionati potrebbero utilizzare Skeleton Key per aggirare le protezioni dell'AI e generare contenuti dannosi, diffondere disinformazione o automatizzare gli attacchi di social engineering su larga scala", avverte Stephen Kowski, Field CTO di SlashNext Email Security+.

Sebbene molti di questi attacchi rimangano teorici, stanno iniziando a emergere implicazioni nel mondo reale. Lee cita un esempio di ricercatori che convincono l'agente virtuale basato su AI a offrire sconti enormi e non autorizzati. "Puoi confondere il loro agente virtuale e ottenere un buon sconto. Forse non è questo che l'azienda vuole", afferma.

Nella sua ricerca, Lee ha sviluppato proof of concept per mostrare come un LLM possa essere ipnotizzato per creare codice vulnerabile e dannoso e come le conversazioni audio dal vivo possano essere intercettate e distorte quasi in tempo reale.