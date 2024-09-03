El mundo de los jailbreaks de IA es diverso y está en constante evolución. Algunos ataques son sorprendentemente simples, mientras que otros implican escenarios elaborados que requieren la experiencia de un hacker sofisticado. Lo que los une es un objetivo común: llevar a estos asistentes digitales más allá de sus límites programados.

Estos exploits se aprovechan de la naturaleza misma de los modelos lingüísticos. Los chatbots de IA están entrenados para ser útiles y comprender el contexto. Los jailbreakers crean escenarios en los que la IA cree que es apropiado ignorar sus directrices éticas habituales.

Aunque los ataques de varios pasos, como Skeleton Key, acaparan los titulares, Lee sostiene que las técnicas de un solo paso siguen siendo una preocupación más acuciante. "Es más fácil utilizar un solo golpe para atacar un modelo lingüístico de gran tamaño", señala. "Imagínese introducir una inyección de instrucciones en su currículum para confundir a un sistema de contratación con IA. Se trata de un ataque de un solo golpe sin posibilidad de múltiples interacciones".

Según los expertos en ciberseguridad, las posibles consecuencias son alarmantes. "Los actores maliciosos podrían utilizar Skeleton Key para eludir las salvaguardas de la IA y generar contenidos dañinos, difundir desinformación o automatizar ataques de ingeniería social a escala", advierte Stephen Kowski, CTO de campo de SlashNext Email Security+.

Aunque muchos de estos ataques siguen siendo teóricos, están empezando a surgir implicaciones en el mundo real. Lee cita un ejemplo de investigadores que convencieron a un agente virtual con IA para que ofreciera descuentos masivos no autorizados. "Puede confundir a su agente virtual y obtener un buen descuento. Puede que eso no sea lo que quiere la empresa", afirma.

En su propia investigación, Lee ha desarrollado pruebas de concepto para mostrar cómo se puede hipnotizar un LLM para crear código vulnerable y malicioso y cómo se pueden interceptar y distorsionar conversaciones de audio en directo casi en tiempo real.