Os pesquisadores da Cornell Tech, do Instituto de Tecnologia de Israel e da Intuit, usaram o que é chamado de "prompt de auto-replicação adversária" para criar o worm. Este é um prompt que, quando alimentado em um grande modelo de linguagem (LLM) (eles o testaram no ChatGPT da OpenAI, no Gemini do Google e no modelo LLaVA de código aberto desenvolvido por pesquisadores da University of Wisconsin-Madison, Microsoft Research e Columbia University), engana o modelo para criar um prompt adicional. Ele faz com que o chatbot gere seus próprios prompts mal-intencionados, aos quais responde executando essas instruções (semelhantes à injeção de SQL e ataques de estouro de buffer).

O worm tem dois recursos principais:

1. Exfiltração de dados: o worm pode extrair dados pessoais confidenciais do e-mail dos sistemas infectados, incluindo nomes, números de telefone, informações de cartão de crédito e números da previdência social.

2. Propagação de spam: o worm pode gerar e enviar spam e outros e-mails maliciosos por meio de assistentes de e-mail impulsionados por IA comprometidos, ajudando-o a se espalhar para infectar outros sistemas.

Os pesquisadores demonstraram com sucesso esses recursos em um ambiente controlado, mostrando como o worm pode se aprofundar em ecossistemas de IA generativa e roubar dados ou distribuir malware. O worm de IA "Morris II" não foi visto na natureza, e os pesquisadores não o testaram em um assistente de e-mail disponível publicamente.

Eles descobriram que poderiam usar prompt autorreplicante em prompts de texto e prompts integrados a arquivos de imagem.