Cuando los chatbots de IA se rebelan

Autor

Sascha Brodsky

Staff Writer

IBM

Ha surgido un nuevo reto en el mundo de la inteligencia artificial, en rápida evolución. Los "susurradores de IA" están sondeando los límites de la ética de la IA convenciendo a los chatbots de buen comportamiento de que rompan sus propias reglas.

Conocidas como inyecciones de instrucciones o "jailbreaks", estos exploits exponen vulnerabilidades en los sistemas de IA y plantean preocupaciones sobre su seguridad. Microsoft ha causado sensación hace poco con su técnica "Skeleton Key", un proceso de varios pasos diseñado para eludir las barreras éticas de una IA. Pero este enfoque no es tan novedoso como podría parecer.

"Skeleton Key es único en el sentido de que requiere múltiples interacciones con la IA", explica Chenta Lee, arquitecto jefe de Inteligencia de Amenazas de IBM. "Antes, la mayoría de los ataques de inyección de instrucciones tenían como objetivo confundir a la IA de un solo intento. Skeleton Key realiza varios intentos, lo que puede aumentar la tasa de éxito".

El arte de la manipulación de la IA

El mundo de los jailbreaks de IA es diverso y está en constante evolución. Algunos ataques son sorprendentemente simples, mientras que otros implican escenarios elaborados que requieren la experiencia de un hacker sofisticado. Lo que los une es un objetivo común: llevar a estos asistentes digitales más allá de sus límites programados.

Estos exploits se aprovechan de la naturaleza misma de los modelos lingüísticos. Los chatbots de IA están entrenados para ser útiles y comprender el contexto. Los jailbreakers crean escenarios en los que la IA cree que es apropiado ignorar sus directrices éticas habituales.

Aunque los ataques de varios pasos, como Skeleton Key, acaparan los titulares, Lee sostiene que las técnicas de un solo paso siguen siendo una preocupación más acuciante. "Es más fácil utilizar un solo golpe para atacar un modelo lingüístico de gran tamaño", señala. "Imagínese introducir una inyección de instrucciones en su currículum para confundir a un sistema de contratación con IA. Se trata de un ataque de un solo golpe sin posibilidad de múltiples interacciones".

Según los expertos en ciberseguridad, las posibles consecuencias son alarmantes. "Los actores maliciosos podrían utilizar Skeleton Key para eludir las salvaguardas de la IA y generar contenidos dañinos, difundir desinformación o automatizar ataques de ingeniería social a escala", advierte Stephen Kowski, CTO de campo de SlashNext Email Security+.

Aunque muchos de estos ataques siguen siendo teóricos, están empezando a surgir implicaciones en el mundo real. Lee cita un ejemplo de investigadores que convencieron a un agente virtual con IA para que ofreciera descuentos masivos no autorizados. "Puede confundir a su agente virtual y obtener un buen descuento. Puede que eso no sea lo que quiere la empresa", afirma.

En su propia investigación, Lee ha desarrollado pruebas de concepto para mostrar cómo se puede hipnotizar un LLM para crear código vulnerable y malicioso y cómo se pueden interceptar y distorsionar conversaciones de audio en directo casi en tiempo real.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de los sectores, herramientas de IA y tendencias emergentes en prompt engineering con el boletín Think. Además, acceda a nuevos artículos explicativos, tutoriales y conocimientos de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Fortalecer la frontera digital

Defenderse de estos ataques es un reto continuo. Lee describe dos enfoques principales: mejorar el entrenamiento de la IA y crear firewalls de IA.

"Queremos mejorar el entrenamiento para que el propio modelo sea capaz de decir: 'Oh, alguien está intentando atacarme'", explica Lee. "También vamos a inspeccionar todas las consultas entrantes al modelo de lenguaje y detectar inyecciones de instrucciones".

A medida que la IA generativa se integra cada vez más en nuestra vida cotidiana, comprender estas vulnerabilidades no es solo una preocupación para los expertos en tecnología. Cada vez es más crucial que cualquiera que interactúe con los sistemas de IA sea consciente de sus posibles debilidades.

Lee establece un paralelismo con los inicios de los ataques de inyección SQL en bases de datos. "Los sectores tardaron entre 5 y 10 años en hacer que todo el mundo entendiera que, al escribir una consulta SQL, es necesario parametrizar todas las entradas para que sean inmunes a los ataques de inyección", afirma. "Para la IA, estamos empezando a utilizar modelos de lenguaje en todas partes. La gente debe entender que no se pueden dar instrucciones simples a una IA porque eso hará que su software sea vulnerable".

El descubrimiento de métodos de jailbreak como Skeleton Key puede diluir la confianza pública en la IA, lo que podría ralentizar la adopción de tecnologías de IA beneficiosas. Según Narayana Pappu, CEO de Zendata, la transparencia y la verificación independiente son esenciales para recuperar la confianza.

"Los desarrolladores y las organizaciones de IA pueden encontrar un equilibrio entre la creación de modelos lingüísticos potentes y versátiles y la garantía de sólidas salvaguardas contra el uso indebido", afirmó. "Pueden hacerlo a través de la transparencia del sistema interno, comprendiendo los riesgos de la IA/cadena de suministro de datos y creando herramientas de evaluación en cada etapa del proceso de desarrollo".

 
AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Gracias a la IA, IBM Concert descubre información crucial sobre sus operaciones y ofrece recomendaciones de mejora personalizadas para cada aplicación. Descubra cómo Concert puede hacer avanzar su negocio.

Explorar el concierto Explore las soluciones de automatización de procesos empresariales