Quando os chatbots IA se tornam criminosos

Autora

Sascha Brodsky

Staff Writer

IBM

Um novo desafio surgiu no mundo em rápida evolução da inteligência artificial. Os "cochichadores de IA" estão sondando os limites da ética em IA, convencendo chatbots bem-comportados a quebrar suas próprias regras.

Conhecidas como injeções de prompts ou “jailbreaks”, essas explorações expõem vulnerabilidades nos sistemas de IA e levantam preocupações sobre sua segurança. Recentemente, a Microsoft causou alvoroço com sua técnica "Skeleton Key", um processo multietapas projetado para contornar os limites éticos de uma IA. Mas essa abordagem não é tão nova quanto pode parecer.

"O Skeleton Key é único, pois exige várias interações com a IA", explica Chenta Lee, Arquiteto Chefe de Inteligência de Ameaças da IBM. "Anteriormente, a maioria dos ataques de injeção de prompts visava confundir a IA em uma única tentativa. O Skeleton Key faz vários disparos, o que pode aumentar a taxa de sucesso.”

A arte da manipulação da IA

O mundo dos jailbreaks de IA é diversificado e está em constante evolução. Alguns ataques são surpreendentemente simples, enquanto outros envolvem cenários elaborados que exigem a experiência de um hacker sofisticado. O que os une é um objetivo comum: levar esses assistentes digitais além dos limites programados.

Essas explorações exploram a própria natureza dos modelos de linguagem. Os chatbots IA são treinados para ser úteis e para entender o contexto. Os jailbreakers criam cenários nos quais a IA acredita que ignorar suas diretrizes éticas usuais é apropriado.

Enquanto ataques em várias etapas como o Skeleton Key ganham as manchetes, Lee argumenta que as técnicas de disparo único continuam sendo uma preocupação mais urgente. "É mais fácil usar um único disparo para atacar um grande modelo de linguagem", observa ele. “Imagine colocar uma injeção de prompts em seu currículo para confundir um sistema de contratação impulsionado por IA. Esse é um ataque único, sem chance de múltiplas interações."

De acordo com especialistas em cibersegurança, as possíveis consequências são alarmantes. "Agentes maliciosos poderiam usar o Skeleton Key para contornar as proteções de IA e gerar conteúdo prejudicial, espalhar desinformação ou automatizar ataques de engenharia social em escala", alerta Stephen Kowski, CTO de Campo da SlashNext Email Security+.

Embora muitos desses ataques permaneçam teóricos, as implicações no mundo real estão começando a surgir. Lee cita um exemplo de pesquisadores que convenceram o agente virtual impulsionado por IA de uma empresa a oferecer descontos maciços não autorizados. “Você pode confundir o agente virtual e conseguir um bom desconto. Isso pode não ser o que a empresa quer", diz ele.

Em sua própria pesquisa, Lee desenvolveu provas de conceito para mostrar como um LLM pode ser hipnotizado para criar código vulnerável e malicioso e como conversas de áudio ao vivo podem ser interceptadas e distorcidas quase em tempo real.

Fortalecimento da fronteira digital

A defesa contra esses ataques é um desafio contínuo. Lee descreve duas abordagens principais: treinamento aprimorado em IA e construção de firewalls de IA.

“Queremos fazer um treinamento melhor para que o próprio modelo saiba: 'Oh, alguém está tentando me atacar'”, explica Lee. "Também vamos inspecionar todas as consultas recebidas no modelo de idioma e detectar injeções de prompts."

Conforme a IA generativa se integra ao nosso cotidiano, entender essas vulnerabilidades não é uma preocupação apenas dos especialistas em tecnologia. É cada vez mais crucial que qualquer pessoa que interaja com sistemas de IA esteja ciente de suas possíveis fraquezas.

Lee descreve os primeiros dias dos ataques de injeção de SQL em bancos de dados. "O setor levou de cinco a 10 anos para que todos entendessem que, ao escrever uma SQL query, é preciso parametrizar todas as entradas para ser imune a ataques de injeção", diz ele. "Para a IA, estamos começando a utilizar modelos de linguagem em todos os lugares. As pessoas precisam entender que você não pode apenas dar instruções simples para uma IA porque isso tornará seu software vulnerável."

A descoberta de métodos de jailbreaking como o Skeleton Key pode diluir a confiança do público na IA, possivelmente retardando a adoção de tecnologias de IA benéficas. De acordo com Narayana Pappu, CEO da Zendata, transparência e verificação independente são essenciais para reconstruir a confiança.

"Os desenvolvedores de IA e as organizações podem encontrar um equilíbrio entre a criação de modelos de linguagem poderosos e versáteis e a garantia de proteções robustas contra o uso indevido", disse ele. "Eles podem fazer isso por meio da transparência do sistema interno, entendendo os riscos da cadeia de suprimentos de IA/dados e incorporando ferramentas de avaliação em cada etapa do processo de desenvolvimento."

 
AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.

Descubra o watsonx.governance
Soluções de governança de IA

Veja como a governança de IA pode ajudar a aumentar a confiança de seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.

Descubra soluções de governança de IA
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM Consulting.

Conheça os serviços de governança de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA por meio de um portfólio unificado — acelerando resultados responsáveis, transparentes e explicáveis.

  1. Explore o watsonx.governance
  2. Agende uma demonstração em tempo real