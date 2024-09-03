O mundo dos jailbreaks de IA é diversificado e está em constante evolução. Alguns ataques são surpreendentemente simples, enquanto outros envolvem cenários elaborados que exigem a experiência de um hacker sofisticado. O que os une é um objetivo comum: levar esses assistentes digitais além dos limites programados.

Essas explorações exploram a própria natureza dos modelos de linguagem. Os chatbots IA são treinados para ser úteis e para entender o contexto. Os jailbreakers criam cenários nos quais a IA acredita que ignorar suas diretrizes éticas usuais é apropriado.

Enquanto ataques em várias etapas como o Skeleton Key ganham as manchetes, Lee argumenta que as técnicas de disparo único continuam sendo uma preocupação mais urgente. "É mais fácil usar um único disparo para atacar um grande modelo de linguagem", observa ele. “Imagine colocar uma injeção de prompts em seu currículo para confundir um sistema de contratação impulsionado por IA. Esse é um ataque único, sem chance de múltiplas interações."

De acordo com especialistas em cibersegurança, as possíveis consequências são alarmantes. "Agentes maliciosos poderiam usar o Skeleton Key para contornar as proteções de IA e gerar conteúdo prejudicial, espalhar desinformação ou automatizar ataques de engenharia social em escala", alerta Stephen Kowski, CTO de Campo da SlashNext Email Security+.

Embora muitos desses ataques permaneçam teóricos, as implicações no mundo real estão começando a surgir. Lee cita um exemplo de pesquisadores que convenceram o agente virtual impulsionado por IA de uma empresa a oferecer descontos maciços não autorizados. “Você pode confundir o agente virtual e conseguir um bom desconto. Isso pode não ser o que a empresa quer", diz ele.

Em sua própria pesquisa, Lee desenvolveu provas de conceito para mostrar como um LLM pode ser hipnotizado para criar código vulnerável e malicioso e como conversas de áudio ao vivo podem ser interceptadas e distorcidas quase em tempo real.