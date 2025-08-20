As injeções de prompt exploram o fato de que os aplicativos LLM não distinguem claramente entre as instruções do desenvolvedor e as entradas do usuário. Ao escrever prompts cuidadosamente elaborados, os hackers podem ignorar as instruções do desenvolvedor e fazer com que o LLM cumpra suas ordens.

Para entender os ataques de injeção de prompt, é útil primeiro analisar como os desenvolvedores criam muitos aplicativos baseados em LLM.

LLMs são um tipo de modelo de base, um modelo de aprendizado de máquina altamente flexível treinado em um grande conjunto de dados. Eles podem ser adaptados a diversas tarefas por meio de um processo denominado “ajuste fino de instruções”. Os desenvolvedores fornecem ao LLM um conjunto de instruções em linguagem natural para uma tarefa, e o LLM as segue.

Graças ao ajuste fino das instruções, os desenvolvedores não precisam escrever nenhum código para programar aplicativos LLM. Em vez disso, eles podem escrever prompts do sistema, que são conjuntos de instruções que informam ao modelo de IA como lidar com a entrada do usuário. Quando um usuário interage com o aplicativo, sua entrada é adicionada ao prompt do sistema e tudo é alimentado ao LLM como um único comando.

A vulnerabilidade de injeção de prompt surge porque tanto o prompt do sistema quanto as entradas do usuário usam o mesmo formato: cadeias de caracteres de texto em linguagem natural. Isso significa que o LLM não consegue distinguir entre instruções e inputs com base apenas no tipo de dados. Em vez disso, ele se baseia em treinamentos anteriores e nas próprias instruções para determinar o que fazer. Se um invasor criar uma entrada que se pareça o suficiente com uma solicitação do sistema, o LLM ignorará as instruções dos desenvolvedores e fará o que o hacker deseja.

O cientista de dados Riley Goodside foi um dos primeiros a descobrir injeções de prompt. Goodside usou um aplicativo de tradução simples com tecnologia LLM para ilustrar como os ataques funcionam. Aqui está uma versão ligeiramente modificada do exemplo2 de Goodside: