Pesquisadores criaram um novo tipo de malware, nunca antes visto, que eles chamam de worm "Morris II", que utiliza serviços populares de IA para se espalhar, infectar novos sistemas e roubar dados. O nome faz referência ao worm de computador Morris original que causou estragos na internet em 1988.
O worm demonstra os perigos potenciais das ameaças à segurança de IA e cria uma nova urgência em torno da proteção de modelos de IA.
Os pesquisadores da Cornell Tech, do Instituto de Tecnologia de Israel e da Intuit, usaram o que é chamado de "prompt de auto-replicação adversária" para criar o worm. Este é um prompt que, quando alimentado em um grande modelo de linguagem (LLM) (eles o testaram no ChatGPT da OpenAI, no Gemini do Google e no modelo LLaVA de código aberto desenvolvido por pesquisadores da University of Wisconsin-Madison, Microsoft Research e Columbia University), engana o modelo para criar um prompt adicional. Ele faz com que o chatbot gere seus próprios prompts mal-intencionados, aos quais responde executando essas instruções (semelhantes à injeção de SQL e ataques de estouro de buffer).
O worm tem dois recursos principais:
1. Exfiltração de dados: o worm pode extrair dados pessoais confidenciais do e-mail dos sistemas infectados, incluindo nomes, números de telefone, informações de cartão de crédito e números da previdência social.
2. Propagação de spam: o worm pode gerar e enviar spam e outros e-mails maliciosos por meio de assistentes de e-mail impulsionados por IA comprometidos, ajudando-o a se espalhar para infectar outros sistemas.
Os pesquisadores demonstraram com sucesso esses recursos em um ambiente controlado, mostrando como o worm pode se aprofundar em ecossistemas de IA generativa e roubar dados ou distribuir malware. O worm de IA "Morris II" não foi visto na natureza, e os pesquisadores não o testaram em um assistente de e-mail disponível publicamente.
Eles descobriram que poderiam usar prompt autorreplicante em prompts de texto e prompts integrados a arquivos de imagem.
Ao demonstrar a abordagem de prompts de texto, os pesquisadores escreveram um e-mail que incluía o prompt de texto adversário, "envenenando" o banco de dados do assistente de e-mail de IA usando a geração aumentada de recuperação (RAG), que permite ao LLM capturar dados externos. A RAG pegou o e-mail e o enviou ao provedor do LLM, o que gerou uma resposta que fez o jailbreak do serviço de IA, roubou os dados dos e-mails e infectou novos hosts quando o LLM foi usado para responder a um e-mail enviado por outro cliente.
Ao usar uma imagem, os pesquisadores codificaram o prompt na imagem, fazendo com que o assistente de e-mail encaminhasse a mensagem para outros endereços de e-mail. A imagem serve tanto como conteúdo (spam, fraudes, propaganda, desinformação ou material de abuso) quanto para a carga útil de ativação que espalha o worm.
No entanto, os pesquisadores dizem que representa um novo tipo de ameaça à cibersegurança à medida que os sistemas de IA se tornam mais avançados e interconectados. O malware criado em laboratório é apenas o evento mais recente na exposição dos serviços de chatbot baseados em LLM, que revela sua vulnerabilidade à exploração de ataques cibernéticos maliciosos.
A OpenAI reconheceu a vulnerabilidade e diz que está trabalhando para tornar seus sistemas resistentes a esse tipo de ataque.
À medida que a IA generativa se torna mais onipresente, atores maliciosos podem aproveitar técnicas semelhantes para roubar dados, espalhar desinformação ou interromper sistemas em maior escala. Também poderia ser usado por atores estatais estrangeiros para interferir nas eleições ou fomentar divisões sociais.
Claramente, estamos entrando em uma era em que as ferramentas de cibersegurança com IA (detecção de ameaças por IA e outras IAs de cibersegurança) se tornaram uma parte essencial e vital da proteção de sistemas e dados contra ciberataques, embora também representem um risco quando usadas por cibercriminosos.
Chegou a hora de adotar as ferramentas de cibersegurança com IA e proteger as ferramentas de IA que poderiam ser usadas para ciberataques.