Quando os chatbots IA se tornam criminosos

Autora

Sascha Brodsky

Staff Writer

IBM

Um novo desafio surgiu no mundo em rápida evolução da inteligência artificial. Os "cochichadores de IA" estão sondando os limites da ética em IA, convencendo chatbots bem-comportados a quebrar suas próprias regras.

Conhecidas como injeções de prompts ou “jailbreaks”, essas explorações expõem vulnerabilidades nos sistemas de IA e levantam preocupações sobre sua segurança. Recentemente, a Microsoft causou alvoroço com sua técnica "Skeleton Key", um processo multietapas projetado para contornar os limites éticos de uma IA. Mas essa abordagem não é tão nova quanto pode parecer.

"O Skeleton Key é único, pois exige várias interações com a IA", explica Chenta Lee, Arquiteto Chefe de Inteligência de Ameaças da IBM. "Anteriormente, a maioria dos ataques de injeção de prompts visava confundir a IA em uma única tentativa. O Skeleton Key faz vários disparos, o que pode aumentar a taxa de sucesso.”

A arte da manipulação da IA

O mundo dos jailbreaks de IA é diversificado e está em constante evolução. Alguns ataques são surpreendentemente simples, enquanto outros envolvem cenários elaborados que exigem a experiência de um hacker sofisticado. O que os une é um objetivo comum: levar esses assistentes digitais além dos limites programados.

Essas explorações exploram a própria natureza dos modelos de linguagem. Os chatbots IA são treinados para ser úteis e para entender o contexto. Os jailbreakers criam cenários nos quais a IA acredita que ignorar suas diretrizes éticas usuais é apropriado.

Enquanto ataques em várias etapas como o Skeleton Key ganham as manchetes, Lee argumenta que as técnicas de disparo único continuam sendo uma preocupação mais urgente. "É mais fácil usar um único disparo para atacar um grande modelo de linguagem", observa ele. “Imagine colocar uma injeção de prompts em seu currículo para confundir um sistema de contratação impulsionado por IA. Esse é um ataque único, sem chance de múltiplas interações."

De acordo com especialistas em cibersegurança, as possíveis consequências são alarmantes. "Agentes maliciosos poderiam usar o Skeleton Key para contornar as proteções de IA e gerar conteúdo prejudicial, espalhar desinformação ou automatizar ataques de engenharia social em escala", alerta Stephen Kowski, CTO de Campo da SlashNext Email Security+.

Embora muitos desses ataques permaneçam teóricos, as implicações no mundo real estão começando a surgir. Lee cita um exemplo de pesquisadores que convenceram o agente virtual impulsionado por IA de uma empresa a oferecer descontos maciços não autorizados. “Você pode confundir o agente virtual e conseguir um bom desconto. Isso pode não ser o que a empresa quer", diz ele.

Em sua própria pesquisa, Lee desenvolveu provas de conceito para mostrar como um LLM pode ser hipnotizado para criar código vulnerável e malicioso e como conversas de áudio ao vivo podem ser interceptadas e distorcidas quase em tempo real.

Pense além dos prompts e tenha o contexto completo 

Fique à frente das últimas notícias do setor, ferramentas de IA e tendências emergentes em engenharia de prompts com o boletim informativo Think. Além disso, tenha acesso a novas explicações, tutoriais e insights, entregues diretamente na sua caixa de entrada. Consulte a declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Fortalecimento da fronteira digital

A defesa contra esses ataques é um desafio contínuo. Lee descreve duas abordagens principais: treinamento aprimorado em IA e construção de firewalls de IA.

“Queremos fazer um treinamento melhor para que o próprio modelo saiba: 'Oh, alguém está tentando me atacar'”, explica Lee. "Também vamos inspecionar todas as consultas recebidas no modelo de idioma e detectar injeções de prompts."

Conforme a IA generativa se integra ao nosso cotidiano, entender essas vulnerabilidades não é uma preocupação apenas dos especialistas em tecnologia. É cada vez mais crucial que qualquer pessoa que interaja com sistemas de IA esteja ciente de suas possíveis fraquezas.

Lee descreve os primeiros dias dos ataques de injeção de SQL em bancos de dados. "O setor levou de cinco a 10 anos para que todos entendessem que, ao escrever uma SQL query, é preciso parametrizar todas as entradas para ser imune a ataques de injeção", diz ele. "Para a IA, estamos começando a utilizar modelos de linguagem em todos os lugares. As pessoas precisam entender que você não pode apenas dar instruções simples para uma IA porque isso tornará seu software vulnerável."

A descoberta de métodos de jailbreaking como o Skeleton Key pode diluir a confiança do público na IA, possivelmente retardando a adoção de tecnologias de IA benéficas. De acordo com Narayana Pappu, CEO da Zendata, transparência e verificação independente são essenciais para reconstruir a confiança.

"Os desenvolvedores de IA e as organizações podem encontrar um equilíbrio entre a criação de modelos de linguagem poderosos e versáteis e a garantia de proteções robustas contra o uso indevido", disse ele. "Eles podem fazer isso por meio da transparência do sistema interno, entendendo os riscos da cadeia de suprimentos de IA/dados e incorporando ferramentas de avaliação em cada etapa do processo de desenvolvimento."

 
AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Soluções relacionadas
IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA
Dê o próximo passo

Ao utilizar a IA, o IBM Concert revela insights cruciais sobre suas operações e fornece recomendações específicas para cada aplicação com foco em melhorias. Descubra como o Concert pode impulsionar sua empresa.

Explorar Concert Explore as soluções de automação de processos de negócios