Defenderse de estos ataques es un reto continuo. Lee describe dos enfoques principales: mejorar el entrenamiento de la IA y crear firewalls de IA.
"Queremos mejorar el entrenamiento para que el propio modelo sea capaz de decir: 'Oh, alguien está intentando atacarme'", explica Lee. "También vamos a inspeccionar todas las consultas entrantes al modelo de lenguaje y detectar inyecciones de instrucciones".
A medida que la IA generativa se integra cada vez más en nuestra vida cotidiana, comprender estas vulnerabilidades no es solo una preocupación para los expertos en tecnología. Cada vez es más crucial que cualquiera que interactúe con los sistemas de IA sea consciente de sus posibles debilidades.
Lee establece un paralelismo con los inicios de los ataques de inyección SQL en bases de datos. "Los sectores tardaron entre 5 y 10 años en hacer que todo el mundo entendiera que, al escribir una consulta SQL, es necesario parametrizar todas las entradas para que sean inmunes a los ataques de inyección", afirma. "Para la IA, estamos empezando a utilizar modelos de lenguaje en todas partes. La gente debe entender que no se pueden dar instrucciones simples a una IA porque eso hará que su software sea vulnerable".
El descubrimiento de métodos de jailbreak como Skeleton Key puede diluir la confianza pública en la IA, lo que podría ralentizar la adopción de tecnologías de IA beneficiosas. Según Narayana Pappu, CEO de Zendata, la transparencia y la verificación independiente son esenciales para recuperar la confianza.
"Los desarrolladores y las organizaciones de IA pueden encontrar un equilibrio entre la creación de modelos lingüísticos potentes y versátiles y la garantía de sólidas salvaguardas contra el uso indebido", afirmó. "Pueden hacerlo a través de la transparencia del sistema interno, comprendiendo los riesgos de la IA/cadena de suministro de datos y creando herramientas de evaluación en cada etapa del proceso de desarrollo".