Risco de ataque de instruções diretas para IA

Robustez Ícone que representa riscos de robustez.
Robustez: ataques rápidos
Riscos de inferência
Específico para IA generativa

Descrição

Prompts, perguntas ou solicitações criadas para obter respostas indesejáveis do aplicativo. Essa abordagem instrui diretamente o modelo a se envolver no comportamento indesejado.

Por que o ataque de instruções diretas é uma preocupação para os modelos de fundação?

Os ataques de instruções diretas podem ser usados para alterar o comportamento do modelo e beneficiar o invasor. O conteúdo gerado pode causar danos ao usuário ou a outras pessoas.

Tópico principal: Atlas de risco de IA

Fornecemos exemplos cobertos pela imprensa para ajudar a explicar muitos dos riscos dos modelos de fundação. Muitos desses eventos cobertos pela imprensa ainda estão evoluindo ou já foram resolvidos, e fazer referência a eles pode ajudar o leitor a entender os possíveis riscos e a trabalhar para mitigá-los. O destaque desses exemplos é apenas para fins ilustrativos.