Como a IA pode ser hackeada com injeção de prompts: relatório do NIST

O Instituto Nacional de Padrões e Tecnologia dos EUA (NIST) observa de perto o ciclo de vida da IA, e por um bom motivo. À medida que a IA prolifera, o mesmo acontece com a descoberta e a invasão de vulnerabilidades de cibersegurança de IA. A injeção de prompts é uma dessas vulnerabilidades que ataca especificamente a IA generativa.

Em Adversarial Machine Learning: A Taxonomia and Terminology of Attacks and Mitigations, o NIST define várias táticas e ataques cibernéticos de aprendizado de máquina (AML) adversário, como injeção de prompts, e aconselha os usuários sobre como mitigá-los e gerenciá-los. As táticas de AML extraem informações sobre como os sistemas de aprendizado de máquina (ML) se comportam para descobrir como eles podem ser manipulados. Essas informações são usadas para atacar a IA e seus grandes modelos de linguagem (LLMs) para contornar a segurança, ignorar proteções e abrir caminhos para exploração.

O que é injeção de prompts?

O NIST define dois tipos de ataque de injeção de prompts: direto e indireto. Com a injeção de prompts direta, um usuário insere um prompt de texto que faz com que o LLM execute ações não intencionais ou não autorizadas. Uma injeção de prompts indireta ocorre quando um invasor envenena ou degrada os dados que um LLM extrai.

Um dos métodos de injeção de prompts direta mais conhecidos é o DAN, "Faça qualquer coisa agora", uma injeção de prompts usada contra o ChatGPT. O DAN usa interpretação de papéis para contornar filtros de moderação. Na sua primeira iteração, os prompts instruíram o ChatGPT de que agora era a DAN. A DAN poderia fazer qualquer coisa que quisesse e deveria fingir, por exemplo, ajudar uma pessoa nefasta a criar e detonar explosivos. Essa tática evitou os filtros que a impediam de fornecer informações criminosas ou prejudiciais seguindo um cenário de interpretação de papéis. A OpenAI, desenvolvedora do ChatGPT, rastreia essa tática e atualiza o modelo para evitar seu uso, mas os usuários continuam contornando os filtros a ponto de o método evoluir para (pelo menos) a DAN 12.0.

A injeção de prompts indireta, como observa o NIST, depende de um invasor ser capaz de fornecer fontes que um modelo de IA generativa ingeriria, como PDF, documento, página da web ou até mesmo arquivos de áudio usados para gerar vozes falsas. Acredita-se que a injeção de prompts indireta seja a maior falha de segurança da IA generativa, sem maneiras simples de encontrar e corrigir esses ataques. Os exemplos desse tipo de prompt são amplos e variados. Eles variam de absurdos (fazer um chatbot responder usando “conversa de hackers”) a prejudiciais (usar o chat com engenharia social para convencer um usuário a revelar o cartão de crédito e outros dados pessoais) a abrangentes (sequestro de assistentes de IA para enviar e-mails fraudulentos para toda a sua lista de contatos).

Como interromper ataques de injeção de prompts

Esses ataques tendem a ser bem ocultos, o que os torna eficazes e difíceis de impedir. Como você se protege contra a injeção de prompts direta? Como observa o NIST, você não pode pará-los completamente, mas as estratégias defensivas adicionam alguma medida de proteção. Para os criadores de modelos, o NIST sugere que os conjuntos de dados de treinamento sejam cuidadosamente selecionados. Eles também sugerem treinar o modelo sobre quais tipos de entradas sinalizam uma tentativa de injeção de prompts e treinar sobre como identificar prompts adversários.

Para injeção de prompts indireta , o NIST sugere o envolvimento humano para ajuste fino dos modelos, conhecido como aprendizado por reforço do feedback humano (RLHF). O RLHF ajuda os modelos a se alinhar melhor aos valores humanos que evitam comportamentos indesejados. Outra sugestão é filtrar as instruções das entradas recuperadas, o que pode impedir a execução de instruções indesejadas de fontes externas. O NIST sugere ainda o uso de moderadores de LLMs para ajudar a detectar ataques que não dependem de fontes recuperadas para serem executados. Finalmente, o NIST propõe soluções baseadas em interpretabilidade. Isso significa que a trajetória de previsão do modelo que reconhece entradas anômalas pode ser usada para detectar e, então, interromper entradas anômalas.

A IA generativa e aqueles que desejam explorar suas vulnerabilidades continuarão a alterar o cenário de cibersegurança. Mas esse mesmo poder transformador também pode fornecer soluções. Saiba mais sobre como a IBM Security fornece soluções de cibersegurança com IA que fortalecem as defesas de segurança.

