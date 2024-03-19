Esses ataques tendem a ser bem ocultos, o que os torna eficazes e difíceis de impedir. Como você se protege contra a injeção de prompts direta? Como observa o NIST, você não pode pará-los completamente, mas as estratégias defensivas adicionam alguma medida de proteção. Para os criadores de modelos, o NIST sugere que os conjuntos de dados de treinamento sejam cuidadosamente selecionados. Eles também sugerem treinar o modelo sobre quais tipos de entradas sinalizam uma tentativa de injeção de prompts e treinar sobre como identificar prompts adversários.
Para injeção de prompts indireta , o NIST sugere o envolvimento humano para ajuste fino dos modelos, conhecido como aprendizado por reforço do feedback humano (RLHF). O RLHF ajuda os modelos a se alinhar melhor aos valores humanos que evitam comportamentos indesejados. Outra sugestão é filtrar as instruções das entradas recuperadas, o que pode impedir a execução de instruções indesejadas de fontes externas. O NIST sugere ainda o uso de moderadores de LLMs para ajudar a detectar ataques que não dependem de fontes recuperadas para serem executados. Finalmente, o NIST propõe soluções baseadas em interpretabilidade. Isso significa que a trajetória de previsão do modelo que reconhece entradas anômalas pode ser usada para detectar e, então, interromper entradas anômalas.
A IA generativa e aqueles que desejam explorar suas vulnerabilidades continuarão a alterar o cenário de cibersegurança. Mas esse mesmo poder transformador também pode fornecer soluções. Saiba mais sobre como a IBM Security fornece soluções de cibersegurança com IA que fortalecem as defesas de segurança.