A defesa contra esses ataques é um desafio contínuo. Lee descreve duas abordagens principais: treinamento aprimorado em IA e construção de firewalls de IA.
“Queremos fazer um treinamento melhor para que o próprio modelo saiba: 'Oh, alguém está tentando me atacar'”, explica Lee. "Também vamos inspecionar todas as consultas recebidas no modelo de idioma e detectar injeções de prompts."
Conforme a IA generativa se integra ao nosso cotidiano, entender essas vulnerabilidades não é uma preocupação apenas dos especialistas em tecnologia. É cada vez mais crucial que qualquer pessoa que interaja com sistemas de IA esteja ciente de suas possíveis fraquezas.
Lee descreve os primeiros dias dos ataques de injeção de SQL em bancos de dados. "O setor levou de cinco a 10 anos para que todos entendessem que, ao escrever uma SQL query, é preciso parametrizar todas as entradas para ser imune a ataques de injeção", diz ele. "Para a IA, estamos começando a utilizar modelos de linguagem em todos os lugares. As pessoas precisam entender que você não pode apenas dar instruções simples para uma IA porque isso tornará seu software vulnerável."
A descoberta de métodos de jailbreaking como o Skeleton Key pode diluir a confiança do público na IA, possivelmente retardando a adoção de tecnologias de IA benéficas. De acordo com Narayana Pappu, CEO da Zendata, transparência e verificação independente são essenciais para reconstruir a confiança.
"Os desenvolvedores de IA e as organizações podem encontrar um equilíbrio entre a criação de modelos de linguagem poderosos e versáteis e a garantia de proteções robustas contra o uso indevido", disse ele. "Eles podem fazer isso por meio da transparência do sistema interno, entendendo os riscos da cadeia de suprimentos de IA/dados e incorporando ferramentas de avaliação em cada etapa do processo de desenvolvimento."