I ricercatori del Cornell Tech, dell'Israel Institute of Technology e di Intuit hanno utilizzato quello che viene definito un "prompt di auto-replicazione avversaria" per creare il worm. Questo è un prompt che, quando inserito in un modello linguistico di grandi dimensioni (LLM) (testato su ChatGPT di OpenAI, Gemini di Google e il modello open source LLaVA sviluppato da ricercatori della University of Wisconsin-Madison, di Microsoft Research e della Columbia University), inganna il modello facendolo creare un ulteriore prompt. Attiva il chatbot per fargli generare propri prompt dannosi, a cui risponde eseguendo quelle istruzioni (simile agli attacchi SQL injection e buffer overflow).

Il worm ha due principali funzionalità:

1. Esfiltrazione dei dati: il worm può estrarre dati personali sensibili dalle e-mail dei sistemi infetti, inclusi nomi, numeri di telefono, dati di carte di credito e numeri di previdenza sociale.

2. Propagazione dello spam: il worm può generare e inviare spam e altre e-mail dannose tramite assistenti di e-mail basati su AI, contribuendo a diffondersi e infettare altri sistemi.

I ricercatori hanno dimostrato con successo queste funzionalità in un ambiente controllato, mostrando come il worm potrebbe insinuarsi negli ecosistemi di AI generativa e rubare dati o distribuire malware. Il worm AI "Morris II" non è stato ancora osservato in natura e i ricercatori non lo hanno testato su un assistente di e-mail disponibile al pubblico.

Hanno scoperto che potevano utilizzare prompt autoreplicanti sia nei prompt di testo sia nei prompt incorporati nei file immagine.