Cuando los chatbots de IA fallan

Autor

Sascha Brodsky

Staff Writer

IBM

Ha surgido un nuevo desafío en el mundo de la inteligencia artificial, que evoluciona rápidamente. Los “susurradores de IA” están probando los límites de la ética de la IA al convencer a los chatbots que se portan bien de que rompan sus propias reglas.

Conocidas como inyecciones de instrucción o “jailbreaks”, estas explotaciones exponen vulnerabilidades en los sistemas de IA y plantean preocupaciones sobre su seguridad. Recientemente, Microsoft causó revuelo con su técnica “Skeleton Key”, un proceso de varios pasos diseñado para eludir las barreras éticas de la IA. Pero este enfoque no es tan novedoso como podría parecer.

“Skeleton Key es único en el sentido de que requiere múltiples interacciones con la IA”, explica Chenta Lee, arquitecto jefe de inteligencia de amenazas de IBM. “Anteriormente, la mayoría de los ataques de inyección de instrucciones tenían como objetivo confundir a la IA en un solo intento. Skeleton Key realiza varios intentos, lo que puede aumentar la tasa de éxito”.

El arte de la manipulación de la IA

El mundo de los jailbreaks de IA es diverso y está en constante evolución. Algunos ataques son sorprendentemente simples, mientras que otros implican escenarios elaborados que requieren la experiencia de un hacker sofisticado. Lo que los une es un objetivo común: llevar a estos asistentes digitales más allá de sus límites programados.

Estos exploits se aprovechan de la naturaleza misma de los modelos de lenguaje. Los chatbots de IA están entrenados para ser útiles y comprender el contexto. Los jailbreakers crean escenarios en los que la IA cree que es apropiado ignorar sus pautas éticas habituales.

Si bien los ataques de varios pasos, como Skeleton Key, acaparan los titulares, Lee argumenta que las técnicas de un solo intento siguen siendo una preocupación más apremiante. “Es más fácil usar un solo intento para atacar un modelo de lenguaje grande”, señala. “Imagínese poner una inyección de instrucciones en su currículo para confundir a un sistema de contratación impulsado por IA. Es un ataque único sin posibilidad de múltiples interacciones”.

Según los expertos en ciberseguridad, las posibles consecuencias son alarmantes. “Los actores maliciosos podrían usar Skeleton Key para eludir las salvaguardas de IA y generar contenido dañino, difundir desinformación o automatizar ataques de ingeniería social a escala”, advierte Stephen Kowski, director de tecnología de campo en SlashNext Email Security+.

Si bien muchos de estos ataques siguen siendo teóricos, las implicaciones del mundo real están comenzando a surgir. Lee cita un ejemplo de investigadores que convencieron al agente virtual impulsado por IA de una empresa para que ofreciera descuentos masivos no autorizados. “Puede confundir a su agente virtual y obtener un buen descuento. Puede que eso no sea lo que la empresa quiere”, dice.

En su propia investigación, Lee ha desarrollado pruebas de concepto para mostrar cómo se puede hipnotizar a un LLM para crear código vulnerable y malicioso y cómo las conversaciones de audio en vivo pueden interceptarse y distorsionarse casi en tiempo real.

Piense más allá de las instrucciones y obtenga el contexto completo 

Manténgase a la vanguardia de las últimas noticias de la industria, herramientas de IA y tendencias emergentes en ingeniería rápida con el boletín Think. Además, obtenga acceso a nuevos documentos explicativos, tutoriales e insights de expertos, directamente en su bandeja de entrada. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Fortalecer la frontera digital

Defenderse de estos ataques es un desafío continuo. Lee describe dos enfoques principales: mejorar el entrenamiento de la IA y crear cortafuegos de IA.

“Queremos hacer un mejor entrenamiento para que el propio modelo sepa que alguien está tratando de atacarlo”, explica Lee. “También vamos a inspeccionar todas las consultas entrantes al modelo de lenguaje y detectar inyecciones de instrucciones”.

A medida que la IA generativa se integra más en nuestra vida diaria, comprender estas vulnerabilidades no es solo una preocupación para los expertos en tecnología. Cada vez es más crucial que cualquiera que interactúe con los sistemas de IA sea consciente de sus posibles debilidades.

Lee evoca los primeros tiempos de los ataques de inyección SQL en bases de datos. “Las industrias tardaron entre 5 y 10 años en hacer que todos entendieran que, al escribir una consulta SQL, es necesario parametrizar todas las entradas para que sean inmunes a los ataques de inyección”, dice. “Para la IA, estamos empezando a utilizar modelos de lenguaje en todas partes. Las personas deben comprender que no se pueden simplemente dar instrucciones simples a una IA porque eso hará que su software sea vulnerable”.

El descubrimiento de métodos de jailbreak como Skeleton Key puede diluir la confianza pública en la IA, lo que podría ralentizar la adopción de tecnologías de IA beneficiosas. Según Narayana Pappu, director ejecutivo (CEO) de Zendata, la transparencia y la verificación independiente son esenciales para recuperar la confianza.

“Los desarrolladores y las organizaciones de IA pueden lograr un equilibrio entre crear modelos de lenguaje potentes y versátiles y garantizar protecciones sólidas contra el uso indebido”, dijo. “Pueden hacerlo a través de la transparencia del sistema interno, la comprensión de los riesgos de la cadena de suministro de IA y la creación de herramientas de evaluación en cada etapa del proceso de desarrollo”.

 
AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Con la IA, IBM Concert muestra insights cruciales sobre operaciones y proporciona recomendaciones de mejora específicas de las aplicaciones. Descubra cómo Concert puede hacer avanzar su negocio.

Explore Concert Explore las soluciones de automatización de procesos de negocio