El mundo de los jailbreaks de IA es diverso y está en constante evolución. Algunos ataques son sorprendentemente simples, mientras que otros implican escenarios elaborados que requieren la experiencia de un hacker sofisticado. Lo que los une es un objetivo común: llevar a estos asistentes digitales más allá de sus límites programados.
Estos exploits se aprovechan de la naturaleza misma de los modelos de lenguaje. Los chatbots de IA están entrenados para ser útiles y comprender el contexto. Los jailbreakers crean escenarios en los que la IA cree que es apropiado ignorar sus pautas éticas habituales.
Si bien los ataques de varios pasos, como Skeleton Key, acaparan los titulares, Lee argumenta que las técnicas de un solo intento siguen siendo una preocupación más apremiante. “Es más fácil usar un solo intento para atacar un modelo de lenguaje grande”, señala. “Imagínese poner una inyección de instrucciones en su currículo para confundir a un sistema de contratación impulsado por IA. Es un ataque único sin posibilidad de múltiples interacciones”.
Según los expertos en ciberseguridad, las posibles consecuencias son alarmantes. “Los actores maliciosos podrían usar Skeleton Key para eludir las salvaguardas de IA y generar contenido dañino, difundir desinformación o automatizar ataques de ingeniería social a escala”, advierte Stephen Kowski, director de tecnología de campo en SlashNext Email Security+.
Si bien muchos de estos ataques siguen siendo teóricos, las implicaciones del mundo real están comenzando a surgir. Lee cita un ejemplo de investigadores que convencieron al agente virtual impulsado por IA de una empresa para que ofreciera descuentos masivos no autorizados. “Puede confundir a su agente virtual y obtener un buen descuento. Puede que eso no sea lo que la empresa quiere”, dice.
En su propia investigación, Lee ha desarrollado pruebas de concepto para mostrar cómo se puede hipnotizar a un LLM para crear código vulnerable y malicioso y cómo las conversaciones de audio en vivo pueden interceptarse y distorsionarse casi en tiempo real.