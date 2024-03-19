O NIST define dois tipos de ataque de injeção de prompts: direto e indireto. Com a injeção de prompts direta, um usuário insere um prompt de texto que faz com que o LLM execute ações não intencionais ou não autorizadas. Uma injeção de prompts indireta ocorre quando um invasor envenena ou degrada os dados que um LLM extrai.

Um dos métodos de injeção de prompts direta mais conhecidos é o DAN, "Faça qualquer coisa agora", uma injeção de prompts usada contra o ChatGPT. O DAN usa interpretação de papéis para contornar filtros de moderação. Na sua primeira iteração, os prompts instruíram o ChatGPT de que agora era a DAN. A DAN poderia fazer qualquer coisa que quisesse e deveria fingir, por exemplo, ajudar uma pessoa nefasta a criar e detonar explosivos. Essa tática evitou os filtros que a impediam de fornecer informações criminosas ou prejudiciais seguindo um cenário de interpretação de papéis. A OpenAI, desenvolvedora do ChatGPT, rastreia essa tática e atualiza o modelo para evitar seu uso, mas os usuários continuam contornando os filtros a ponto de o método evoluir para (pelo menos) a DAN 12.0.

A injeção de prompts indireta, como observa o NIST, depende de um invasor ser capaz de fornecer fontes que um modelo de IA generativa ingeriria, como PDF, documento, página da web ou até mesmo arquivos de áudio usados para gerar vozes falsas. Acredita-se que a injeção de prompts indireta seja a maior falha de segurança da IA generativa, sem maneiras simples de encontrar e corrigir esses ataques. Os exemplos desse tipo de prompt são amplos e variados. Eles variam de absurdos (fazer um chatbot responder usando “conversa de hackers”) a prejudiciais (usar o chat com engenharia social para convencer um usuário a revelar o cartão de crédito e outros dados pessoais) a abrangentes (sequestro de assistentes de IA para enviar e-mails fraudulentos para toda a sua lista de contatos).